ForecastingSettings Klass

Prognostiseringsinställningar för ett AutoML-jobb.

Arv
azure.ai.ml.entities._mixins.RestTranslatableMixin
ForecastingSettings

Konstruktor

ForecastingSettings(*, country_or_region_for_holidays: str | None = None, cv_step_size: int | None = None, forecast_horizon: str | int | None = None, target_lags: str | int | List[int] | None = None, target_rolling_window_size: str | int | None = None, frequency: str | None = None, feature_lags: str | None = None, seasonality: str | int | None = None, use_stl: str | None = None, short_series_handling_config: str | None = None, target_aggregate_function: str | None = None, time_column_name: str | None = None, time_series_id_column_names: str | List[str] | None = None, features_unknown_at_forecast_time: str | List[str] | None = None)

Parametrar

Name Description
country_or_region_for_holidays
Obligatorisk

Det land/den region som används för att generera semesterfunktioner. Dessa bör vara iso 3166 tvåbokstavs lands-/regionkod, till exempel "USA" eller "GB".

cv_step_size
Obligatorisk

Antal perioder mellan origin_time av en CV-vikning och nästa vikt. Om till exempel n_step = 3 för dagliga data är ursprungstiden för varje vikning tre dagars mellanrum.

forecast_horizon
Obligatorisk

Önskad maximal prognoshorisont i tidsseriefrekvensenheter. Standardvärdet är 1.

Enheterna baseras på tidsintervallet för dina träningsdata, t.ex. varje månad, varje vecka som prognosmakaren bör förutsäga. När aktivitetstypen prognostiseras krävs den här parametern. Mer information om hur du ställer in prognosparametrar finns i Auto-train a time-series forecast model (Träna en prognosmodell för tidsserier automatiskt).

target_lags
Obligatorisk

Antalet tidigare perioder som ska släpas från målkolumnen. Som standard är fördröjningarna inaktiverade.

Vid prognostisering representerar den här parametern antalet rader som ska fördröja målvärdena baserat på datafrekvensen. Detta representeras som en lista eller ett heltal. Fördröjning bör användas när relationen mellan de oberoende variablerna och den beroende variabeln inte matchar eller korrelerar som standard. När du till exempel försöker prognostisera efterfrågan på en produkt kan efterfrågan under en månad bero på priset på specifika råvaror 3 månader tidigare. I det här exemplet kanske du vill fördröja målet (efterfrågan) negativt med 3 månader så att modellen tränar på rätt relation. Mer information finns i Auto-train a time-series forecast model (Träna en tidsserieprognosmodell automatiskt).

Observera automatisk identifiering av målfördröjningar och rullande fönsterstorlek. Se motsvarande kommentarer i avsnittet rullande fönster. Vi använder nästa algoritm för att identifiera optimal målfördröjning och rullande fönsterstorlek.

  1. Beräkna den maximala fördröjningsordningen för funktionsvalet för tillbakablick. I vårt fall är det antalet perioder fram till nästa datumfrekvenskornighet, dvs. om frekvensen är dagligen blir det en vecka (7), om det är en vecka blir det månad (4). Dessa värden multipliceras med två är de största möjliga värdena för fördröjningar/rullande fönster. I våra exempel kommer vi att överväga den maximala fördröjningsordningen på 14 respektive 8).

  2. Skapa en de-seasonalized serie genom att lägga till trend- och residualkomponenter. Detta kommer att användas i nästa steg.

  3. Beräkna PACF – partiell auto korrelationsfunktion på på data från (2) och sök efter punkter, där den automatiska korrelationen är betydande, dvs. dess absoluta värde är mer än 1,96/square_root(maximal fördröjningsvärde), vilket motsvarar signifikansen på 95 %.

  4. Om alla punkter är viktiga anser vi att det är stark säsongsvariation och skapar inte tillbakablicksfunktioner.

  5. Vi genomsöker PACF-värdena från början och värdet innan den första obetydliga automatiska korrelationen anger fördröjningen. Om det första signifikanta elementet (värdet korrelerar med sig självt) följs av obetydligt blir fördröjningen 0 och vi kommer inte att använda tillbakablicksfunktioner.

target_rolling_window_size
Obligatorisk

Antalet tidigare perioder som används för att skapa ett rullande fönstergenomsnitt för målkolumnen.

Vid prognostisering representerar den här parametern n historiska perioder som ska användas för att generera prognostiserade värden, <= träningsuppsättningens storlek. Om det utelämnas är n den fullständiga träningsuppsättningens storlek. Ange den här parametern när du bara vill överväga en viss mängd historik när du tränar modellen. Om värdet är "auto" beräknas rullande fönster som det sista värdet där PACF är mer än signifikanströskeln. Mer information finns i avsnittet target_lags.

frequency
Obligatorisk

Prognosfrekvens.

Vid prognostisering representerar den här parametern den period med vilken prognosen önskas, till exempel dagligen, varje vecka, varje år osv. Prognosfrekvensen är datamängdsfrekvens som standard. Du kan också ange det till större (men inte mindre) än datauppsättningsfrekvensen. Vi aggregerar data och genererar resultaten med prognosfrekvens. För dagliga data kan du till exempel ange att frekvensen ska vara daglig, veckovis eller månatlig, men inte varje timme. Frekvensen måste vara ett pandas-offsetalias. Mer information finns i Pandas-dokumentationen: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

feature_lags
Obligatorisk

Flagga för att generera fördröjningar för de numeriska funktionerna med "auto" eller None.

seasonality
Obligatorisk

Ange säsongsvariationer för tidsserier som en heltalsmultipel för seriefrekvensen. Om säsongsvariationen är inställd på "auto" kommer den att härledas. Om värdet är Ingen antas tidsserien vara icke-säsongsbunden, vilket motsvarar säsongsvariation =1.

use_stl
Obligatorisk

Konfigurera STL-nedbrytning av tidsseriemålkolumnen. use_stl kan ta tre värden: Ingen (standard) – ingen stl-nedbrytning, "säsong" – genererar bara säsongskomponent och season_trend – genererar både säsongs- och trendkomponenter.

short_series_handling_config
Obligatorisk

Parametern som definierar hur AutoML ska hantera korta tidsserier.

Möjliga värden: "auto" (standard), "pad", "drop" och None.

  • auto kort serie kommer att vara vadderade om det inte finns några långa serier, annars kort serie kommer att släppas.
  • pad alla korta serien kommer att vara vadderade.
  • släpp alla korta serier kommer att tas bort".
  • Ingen av de korta serierna kommer inte att ändras. Om den är inställd på "pad" kommer tabellen att fyllas med nollorna och tomma värden för regressorerna och slumpmässiga värden för målet med medelvärdet lika med målvärdets median för angivet tidsserie-ID. Om medianvärdet är mer eller lika med noll klipps det minimala vadderade värdet av noll. Indata:

Datum

numeric_value

sträng

Mål

2020-01-01

23

green

55

Utdata förutsatt att det minsta antalet värden är fyra:

Datum

numeric_value

sträng

Mål

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

2020-01-01

23

green

55

Observera: Vi har två parametrar short_series_handling_configuration och äldre short_series_handling. När båda parametrarna anges synkroniseras de enligt tabellen nedan (short_series_handling_configuration och short_series_handling för korthet markeras som handling_configuration respektive hantering).

Hantering

hantera konfiguration

resulterande hantering

resulterande hanteringskonfiguration

Sant

auto

Sant

auto

Sant

Pad

Sant

auto

Sant

drop

Sant

auto

Sant

Ingen

Falskt

Ingen

Falskt

auto

Falskt

Ingen

Falskt

Pad

Falskt

Ingen

Falskt

drop

Falskt

Ingen

Falskt

Ingen

Falskt

Ingen

target_aggregate_function
Obligatorisk
str

Funktionen som ska användas för att aggregera målkolumnen för tidsserier så att den överensstämmer med en angiven frekvens för användaren. Om target_aggregation_function har angetts, men freq-parametern inte har angetts, utlöses felet. Möjliga målaggregeringsfunktioner är: "sum", "max", "min" och "mean".

  • Målkolumnvärdena aggregeras baserat på den angivna åtgärden. Vanligtvis är summan lämplig för de flesta scenarier.

  • Numeriska förutsägelsekolumner i dina data aggregeras med summa, medelvärde, minimivärde och högsta värde. Därför genererar automatiserad ML nya kolumner med namnet på sammansättningsfunktionen och tillämpar den valda mängdåtgärden.

  • För kategoriska förutsägelsekolumner aggregeras data efter läge, den mest framträdande kategorin i fönstret.

  • Kolumner för datum förutsägare aggregeras efter minsta värde, högsta värde och läge.

Freq

target_aggregation_function

Mekanism för data regularityfixing

Ingen (standard)

Ingen (standard)

Aggregeringen används inte. Om validfrequency inte kan fastställas utlöses felet.

Visst värde

Ingen (standard)

Aggregeringen används inte. Om antalet datapunkter som är kompatibla med det angivna frekvensrutnätet är mindre än 90 % tas dessa punkter bort, annars utlöses felet.

Ingen (standard)

Sammansättningsfunktion

Felet om parametern missingfrequency genereras.

Visst värde

Sammansättningsfunktion

Aggregera till frekvens med hjälp avproviderad aggregeringsfunktion.

time_column_name
Obligatorisk

Namnet på tidskolumnen. Den här parametern krävs vid prognostisering för att ange kolumnen datetime i indata som används för att skapa tidsserier och härleda dess frekvens.

time_series_id_column_names
Obligatorisk

Namnen på kolumner som används för att gruppera en tidsserie. Den kan användas för att skapa flera serier. Om kolumnnamn för tidsserie-ID inte har definierats eller om de angivna identifierarkolumnerna inte identifierar alla serier i datauppsättningen skapas tidsserieidentifierarna automatiskt för datauppsättningen.

features_unknown_at_forecast_time
Obligatorisk

De funktionskolumner som är tillgängliga för träning men som är okända vid tidpunkten för prognos/slutsatsdragning. Om features_unknown_at_forecast_time är inställd på en tom lista förutsätts det att alla funktionskolumner i datauppsättningen är kända vid inferens. Om den här parametern inte har angetts är stödet för framtida funktioner inte aktiverat.

Keyword-Only parametrar

Name Description
country_or_region_for_holidays
Obligatorisk
cv_step_size
Obligatorisk
forecast_horizon
Obligatorisk
target_lags
Obligatorisk
target_rolling_window_size
Obligatorisk
frequency
Obligatorisk
feature_lags
Obligatorisk
seasonality
Obligatorisk
use_stl
Obligatorisk
short_series_handling_config
Obligatorisk
target_aggregate_function
Obligatorisk
time_column_name
Obligatorisk
time_series_id_column_names
Obligatorisk
features_unknown_at_forecast_time
Obligatorisk