Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek popisuje, jak AutoML připravuje data pro prognózování trénování a popisuje konfigurovatelná nastavení dat. Tyto možnosti můžete upravit během nastavení experimentu v uživatelském rozhraní AutoML.
Informace o konfiguraci těchto nastavení pomocí rozhraní API AutoML najdete v referenčních informacích k rozhraní Python API autoML.
Podporované datové typy funkcí
Podporují se jenom níže uvedené typy funkcí. Obrázky se například nepodporují .
Podporují se následující typy funkcí:
- Číselné (
ByteType, ,ShortTypeIntegerTypeLongType, ,FloatTypea )DoubleType - logický
- Řetězec (kategorický nebo anglický text)
- Časové razítka (
TimestampType,DateType) - ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML a vyšší)
- DecimalType (Databricks Runtime 11.3 LTS ML a vyšší)
Imputovat chybějící hodnoty
V Databricks Runtime 10.4 LTS ML a novějších můžete určit, jak jsou imputovány hodnoty null. V uživatelském rozhraní vyberte metodu z rozevíracího seznamu v Impute s sloupcem ve schématu tabulky. V rozhraní API použijte imputers parametr. Další informace najdete v tématu Referenční informace k rozhraní PYTHON API pro AutoML.
AutoML ve výchozím nastavení vybere metodu imputace na základě typu sloupce a obsahu.
Poznámka:
Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů.
Rozdělení dat prognóz do trénovacích, ověřovacích a testovacích sad
AutoML rozdělí data do tří rozdělení pro trénování, ověřování a testování.
Pro úlohy prognózování používá AutoML křížové ověřování časových řad. Tato metoda přírůstkově rozšiřuje trénovací datovou sadu chronologicky a provádí ověřování v následných časových bodech. Křížové ověřování poskytuje robustní vyhodnocení výkonu modelu v různých segmentech času. Zajišťuje, aby byl model prognózování pečlivě testován proti nezoznaným budoucím datům, přičemž zachovává relevanci a přesnost předpovědí.
Počet záhybů křížového ověření závisí na vlastnostech vstupní tabulky, jako je počet časových řad, přítomnost kovariantů a délka časové řady.
Agregace časových řad
V případě problémů s prognózou používá AutoML průměr hodnot, pokud je v časové řadě více hodnot pro časové razítko.
Pokud chcete místo toho použít součet, upravte poznámkový blok zdrojového kódu vygenerovaný zkušebními spuštěními.
V buňce Agregovat data podle ... změňte .agg(y=(target_col, "avg")) na .agg(y=(target_col, "sum")), jak je znázorněno na obrázku:
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })