Partilhar via


ForecastingSettings Classe

Definições de previsão para uma Tarefa de AutoML.

Herança
azure.ai.ml.entities._mixins.RestTranslatableMixin
ForecastingSettings

Construtor

ForecastingSettings(*, country_or_region_for_holidays: str | None = None, cv_step_size: int | None = None, forecast_horizon: str | int | None = None, target_lags: str | int | List[int] | None = None, target_rolling_window_size: str | int | None = None, frequency: str | None = None, feature_lags: str | None = None, seasonality: str | int | None = None, use_stl: str | None = None, short_series_handling_config: str | None = None, target_aggregate_function: str | None = None, time_column_name: str | None = None, time_series_id_column_names: str | List[str] | None = None, features_unknown_at_forecast_time: str | List[str] | None = None)

Parâmetros

Name Description
country_or_region_for_holidays
Necessário

O país/região utilizado para gerar funcionalidades de feriados. Devem ser iso 3166 código de país/região de duas letras, por exemplo "EUA" ou "GB".

cv_step_size
Necessário

Número de períodos entre o origin_time de uma dobra cv e a dobra seguinte. Por exemplo, se n_step = 3 para dados diários, a hora de origem de cada dobra terá três dias de diferença.

forecast_horizon
Necessário

O horizonte de previsão máximo pretendido em unidades de frequência de série temporal. O valor predefinido é 1.

As unidades baseiam-se no intervalo de tempo dos dados de preparação, por exemplo, mensalmente, semanalmente, que o meteorologista deve prever. Quando o tipo de tarefa é previsto, este parâmetro é necessário. Para obter mais informações sobre como definir parâmetros de previsão, veja Preparar automaticamente um modelo de previsão de série temporal.

target_lags
Necessário

O número de períodos anteriores a desfasar da coluna de destino. Por predefinição, os atrasos estão desativados.

Ao prever, este parâmetro representa o número de linhas a desfasar os valores de destino com base na frequência dos dados. Isto é representado como uma lista ou um único número inteiro. O atraso deve ser utilizado quando a relação entre as variáveis independentes e a variável dependente não corresponder ou correlacionar por predefinição. Por exemplo, ao tentar prever a procura de um produto, a procura em qualquer mês pode depender do preço de mercadorias específicas 3 meses antes. Neste exemplo, poderá querer atrasar negativamente o destino (procura) em 3 meses para que o modelo esteja a preparar a relação correta. Para obter mais informações, veja Preparar automaticamente um modelo de previsão de série temporal.

Tenha em atenção a deteção automática de atrasos de destino e o tamanho da janela temporal. Veja os comentários correspondentes na secção de janela temporal. Utilizamos o algoritmo seguinte para detetar o desfasamento ideal do destino e o tamanho da janela temporal.

  1. Estimize a ordem de atraso máximo para a seleção de funcionalidades de aspeto anterior. No nosso caso, é o número de períodos até à próxima granularidade de frequência de data, ou seja, se a frequência for diária, será uma semana (7), se for uma semana, será mês (4). Esses valores multiplicados por dois são os maiores valores possíveis de lags/rolling windows. Nos nossos exemplos, vamos considerar a ordem de atraso máximo de 14 e 8, respetivamente).

  2. Crie uma série não sazonalizada ao adicionar tendências e componentes residuais. Esta ação será utilizada no próximo passo.

  3. Estimize a Função PACF – Correlação Automática Parcial nos dados de (2) e procure pontos, em que a correlação automática é significativa, ou seja, o seu valor absoluto é superior a 1,96/square_root(valor de atraso máximo), que correspondem à significância de 95%.

  4. Se todos os pontos forem significativos, consideramos que é uma sazonalidade forte e não criamos funcionalidades de olhar para trás.

  5. Analisamos os valores pacf desde o início e o valor antes da primeira correlação automática insignificante designará o atraso. Se o primeiro elemento significativo (valor correlacionado consigo próprio) for seguido de insignificante, o atraso será 0 e não utilizaremos as funcionalidades de retrospetivo.

target_rolling_window_size
Necessário

O número de períodos anteriores utilizados para criar uma média de janela temporal da coluna de destino.

Ao prever, este parâmetro representa n períodos históricos a utilizar para gerar valores previstos, <= tamanho do conjunto de preparação. Se omitido, n é o tamanho completo do conjunto de preparação. Especifique este parâmetro quando quiser considerar apenas uma determinada quantidade de histórico ao preparar o modelo. Se estiver definido como "automático", a janela temporal será estimada como o último valor em que o PACF é mais, então o limiar de significância. Consulte target_lags secção para obter detalhes.

frequency
Necessário

Frequência de previsão.

Ao prever, este parâmetro representa o período com o qual a previsão é desejada, por exemplo, diariamente, semanalmente, anualmente, etc. A frequência de previsão é a frequência do conjunto de dados por predefinição. Opcionalmente, pode defini-lo para maior (mas não menor) do que a frequência dos conjuntos de dados. Vamos agregar os dados e gerar os resultados com frequência de previsão. Por exemplo, para dados diários, pode definir a frequência para ser diária, semanal ou mensal, mas não por hora. A frequência tem de ser um alias de deslocamento do pandas. Veja a documentação do pandas para obter mais informações: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

feature_lags
Necessário

Sinalizador para gerar atrasos para as funcionalidades numéricas com "auto" ou Nenhum.

seasonality
Necessário

Defina a sazonalidade de série temporal como um múltiplo inteiro da frequência da série. Se a sazonalidade estiver definida como "automática", será inferida. Se estiver definida como Nenhuma, a série temporal é assumida como não sazonal, o que é equivalente a sazonalidade=1.

use_stl
Necessário

Configure a Decomposição de STL da coluna de destino da série temporal. use_stl pode levar três valores: Nenhum (predefinição) - sem decomposição stl, 'temporada' - apenas gerar componente de estação e season_trend - gerar componentes de estação e tendência.

short_series_handling_config
Necessário

O parâmetro que define como se o AutoML deve processar séries de tempo curtos.

Valores possíveis: "auto" (predefinição), "pad", "drop" e None.

  • as séries curtas automáticas serão acolchoadas se não existirem séries longas, caso contrário, as séries curtas serão removidas.
  • todas as séries curtas serão acolchoadas.
  • remover todas as séries curtas será removida".
  • Nenhuma das séries curtas não será modificada. Se estiver definida como 'pad', a tabela será preenchida com os zeros e valores vazios para os regressors e valores aleatórios para o destino com a média igual à mediana do valor de destino para um determinado ID de série temporal. Se a mediana for mais ou igual a zero, o valor acolchoado mínimo será cortado por zero. Entrada:

Data

numeric_value

string

destino

2020-01-01

23

green

55

O resultado pressupõe que o número mínimo de valores é quatro:

Data

numeric_value

string

destino

2019-12-29

0

ND

55.1

2019-12-30

0

ND

55.6

2019-12-31

0

ND

54.5

2020-01-01

23

green

55

Nota: Temos dois parâmetros short_series_handling_configuration e short_series_handling legados. Quando ambos os parâmetros estão definidos, estamos a sincronizá-los conforme mostrado na tabela abaixo (short_series_handling_configuration e short_series_handling para brevidade são marcados como handling_configuration e a processar, respetivamente).

processamento

processar a configuração

processamento resultante

processamento resultanteconfiguração

Verdadeiro

auto

Verdadeiro

auto

Verdadeiro

teclado

Verdadeiro

auto

Verdadeiro

drop

Verdadeiro

auto

Verdadeiro

Nenhuma

Falso

Nenhuma

Falso

auto

Falso

Nenhuma

Falso

teclado

Falso

Nenhuma

Falso

drop

Falso

Nenhuma

Falso

Nenhuma

Falso

Nenhuma

target_aggregate_function
Necessário
str

A função a ser utilizada para agregar a coluna de destino da série temporal para estar em conformidade com uma frequência especificada por um utilizador. Se o target_aggregation_function estiver definido, mas o parâmetro freq não estiver definido, o erro será gerado. As possíveis funções de agregação de destino são: "sum", "max", "min" e "mean".

  • Os valores da coluna de destino são agregados com base na operação especificada. Normalmente, a soma é adequada para a maioria dos cenários.

  • As colunas do preditor numérico nos seus dados são agregadas por soma, média, valor mínimo e valor máximo. Como resultado, o ML automatizado gera novas colunas sufixadas com o nome da função de agregação e aplica a operação de agregação selecionada.

  • Para colunas do preditor categórico, os dados são agregados por modo, a categoria mais proeminente na janela.

  • As colunas do preditor de datas são agregadas pelo valor mínimo, valor máximo e modo.

freq

target_aggregation_function

Mecanismo de regularidade de dados

Nenhum (Predefinição)

Nenhum (Predefinição)

A agregação não é aplicada. Se não for possível determinar a validfrequência, o erro será gerado.

Algum Valor

Nenhum (Predefinição)

A agregação não é aplicada. Se o número de pontos de dados conformes a determinadas grelhas de frequência for menor, 90% destes pontos serão removidos, caso contrário, o erro será gerado.

Nenhum (Predefinição)

Função de agregação

O erro sobre os parâmetros missingfrequency é gerado.

Algum Valor

Função de agregação

Agregar à frequência utilizando a função de agregação processada.

time_column_name
Necessário

O nome da coluna time. Este parâmetro é necessário ao prever para especificar a coluna datetime nos dados de entrada utilizados para criar a série temporal e inferir a respetiva frequência.

time_series_id_column_names
Necessário

Os nomes das colunas utilizadas para agrupar uma série de horas. Pode ser utilizado para criar várias séries. Se os nomes das colunas de ID da série temporal não estiverem definidos ou as colunas do identificador especificadas não identificarem todas as séries no conjunto de dados, os identificadores da série temporal serão criados automaticamente para o conjunto de dados.

features_unknown_at_forecast_time
Necessário

As colunas de funcionalidades disponíveis para preparação, mas desconhecidas no momento da previsão/inferência. Se features_unknown_at_forecast_time estiver definido como uma lista vazia, presume-se que todas as colunas de funcionalidades no conjunto de dados são conhecidas no momento da inferência. Se este parâmetro não estiver definido, o suporte para funcionalidades futuras não está ativado.

Parâmetros Só de Palavra-Chave

Name Description
country_or_region_for_holidays
Necessário
cv_step_size
Necessário
forecast_horizon
Necessário
target_lags
Necessário
target_rolling_window_size
Necessário
frequency
Necessário
feature_lags
Necessário
seasonality
Necessário
use_stl
Necessário
short_series_handling_config
Necessário
target_aggregate_function
Necessário
time_column_name
Necessário
time_series_id_column_names
Necessário
features_unknown_at_forecast_time
Necessário