Příprava dat pro prognózování

Tento článek popisuje, jak AutoML připravuje data pro prognózování trénování a popisuje konfigurovatelná nastavení dat. Tyto možnosti můžete upravit během nastavení experimentu v uživatelském rozhraní AutoML.

Informace o konfiguraci těchto nastavení pomocí rozhraní API AutoML najdete v referenčních informacích k rozhraní Python API autoML.

Podporované datové typy funkcí

Podporují se jenom níže uvedené typy funkcí. Obrázky se například nepodporují .

Podporují se následující typy funkcí:

Číselné (ByteType, , ShortTypeIntegerTypeLongType, , FloatTypea )DoubleType
logický
Řetězec (kategorický nebo anglický text)
Časové razítka (TimestampType, DateType)
ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML a vyšší)
DecimalType (Databricks Runtime 11.3 LTS ML a vyšší)

Imputovat chybějící hodnoty

V Databricks Runtime 10.4 LTS ML a novějších můžete určit, jak jsou imputovány hodnoty null. V uživatelském rozhraní vyberte metodu z rozevíracího seznamu v Impute s sloupcem ve schématu tabulky. V rozhraní API použijte imputers parametr. Další informace najdete v tématu Referenční informace k rozhraní PYTHON API pro AutoML.

AutoML ve výchozím nastavení vybere metodu imputace na základě typu sloupce a obsahu.

Poznámka:

Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů.

Rozdělení dat prognóz do trénovacích, ověřovacích a testovacích sad

AutoML rozdělí data do tří rozdělení pro trénování, ověřování a testování.

Pro úlohy prognózování používá AutoML křížové ověřování časových řad. Tato metoda přírůstkově rozšiřuje trénovací datovou sadu chronologicky a provádí ověřování v následných časových bodech. Křížové ověřování poskytuje robustní vyhodnocení výkonu modelu v různých segmentech času. Zajišťuje, aby byl model prognózování pečlivě testován proti nezoznaným budoucím datům, přičemž zachovává relevanci a přesnost předpovědí.

Počet záhybů křížového ověření závisí na vlastnostech vstupní tabulky, jako je počet časových řad, přítomnost kovariantů a délka časové řady.

Agregace časových řad

V případě problémů s prognózou používá AutoML průměr hodnot, pokud je v časové řadě více hodnot pro časové razítko.

Pokud chcete místo toho použít součet, upravte poznámkový blok zdrojového kódu vygenerovaný zkušebními spuštěními. V buňce Agregovat data podle ... změňte .agg(y=(target_col, "avg")) na .agg(y=(target_col, "sum")), jak je znázorněno na obrázku:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-11-22