Mozaik AutoML Python API-referencia
Ez a cikk a Mozaik AutoML Python API-t ismerteti, amely módszereket kínál az AutoML-futtatások osztályozásának, regressziójának és előrejelzésének elindításához. Minden metódus meghívja a modellek egy készletét, és létrehoz egy próbajegyzetfüzetet minden modellhez.
További információ a Mozaik AutoML-ről, beleértve az alacsony kódú felhasználói felületet is, lásd : Mi az a Mozaik autoML?.
Besorolás
A databricks.automl.classify
metódus egy Mozaik AutoML-futtatás konfigurálásával tanít be egy besorolási modellt.
Feljegyzés
A max_trials
paraméter elavult a Databricks Runtime 10.4 ML-ben, és a Databricks Runtime 11.0 ML és újabb verziókban nem támogatott. Az AutoML-futtatás időtartamának szabályozására használható timeout_minutes
.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Paraméterek osztályozása
Paraméter neve | Típus | Leírás |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame pyspark.sql.DataFrame |
Betanítási funkciókat és célokat tartalmazó beviteli tábla neve vagy DataFrame. A tábla neve lehet "<database_name>" formátumú.<>table_name" vagy "<schema_name>.<>table_name" nem Unity-katalógustáblákhoz. |
target_col |
str |
A célcímke oszlopneve. |
primary_metric |
str |
A modell teljesítményének kiértékeléséhez és rangsorolásához használt metrika. A regresszió támogatott metrikái: "r2" (alapértelmezett), "mae", "rmse", "mse" A besorolás támogatott mérőszámai: "f1" (alapértelmezett), "log_loss", "pontosság", "pontosság", "roc_auc" |
data_dir |
str formátum dbfs:/<folder-name> |
Opcionális. A betanítási adatkészlet tárolására használt DBFS-elérési út. Ez az elérési út az illesztőprogram és a feldolgozó csomópontok számára is látható. A Databricks azt javasolja, hogy hagyja üresen a mezőt, így az AutoML MLflow-összetevőként mentheti a betanítási adathalmazt. Ha egyéni elérési út van megadva, az adathalmaz nem örökli az AutoML-kísérlet hozzáférési engedélyeit. |
experiment_dir |
str |
Opcionális. A létrehozott jegyzetfüzetek és kísérletek mentéséhez lépjen a munkaterület könyvtárához. Alapértelmezett: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcionális. Az AutoML által létrehozott MLflow-kísérlet neve. Alapértelmezett: A rendszer automatikusan létrehozza a nevet. |
exclude_cols |
List[str] |
Opcionális. Az AutoML-számítások során figyelmen kívül hagyandó oszlopok listája. Alapértelmezett: [] |
exclude_frameworks |
List[str] |
Opcionális. Azon algoritmus-keretrendszerek listája, amelyeket az AutoML nem érdemes figyelembe venni a modellek fejlesztése során. Lehetséges értékek: üres lista vagy egy vagy több "sklearn", "lightgbm", "xgboost". Alapértelmezett: [] (minden keretrendszert figyelembe kell venni) |
feature_store_lookups |
List[Dict] |
Opcionális. Az adatnagyobbítás funkciótár funkcióit képviselő szótárak listája. Az egyes szótárakban érvényes kulcsok a következők: - table_name (str): Kötelező. A szolgáltatástábla neve.- lookup_key (list vagy str): Kötelező. Kulcsként használandó oszlopnév(ek) a funkciótáblához való csatlakozáskor a dataset paramban átadott adatokkal. Az oszlopnevek sorrendjének meg kell egyeznie a funkciótábla elsődleges kulcsainak sorrendjével.- timestamp_lookup_key (str): Kötelező, ha a megadott tábla egy idősoros funkciótábla. A funkciótáblán az időponthoz kötött kereséshez használandó oszlopnév a paramban dataset átadott adatokkal.Alapértelmezett: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opcionális. Szótár, ahol minden kulcs egy oszlopnév, és minden érték egy sztring vagy szótár, amely leírja a számítási stratégiát. Ha sztringként van megadva, az értéknek a "középérték", a "medián" vagy a "most_frequent" egyikének kell lennie. Ha ismert értékkel szeretne impute-t adni, adja meg az értéket szótárként {"strategy": "constant", "fill_value": <desired value>} . A sztringbeállításokat például {"strategy": "mean"} szótárként is megadhatja.Ha nincs megadva számítási stratégia egy oszlophoz, az AutoML kiválaszt egy alapértelmezett stratégiát az oszloptípus és a tartalom alapján. Ha nem alapértelmezett számítási módszert ad meg, az AutoML nem végez szemantikai típusészlelést. Alapértelmezett: {} |
pos_label |
Union[int, bool, str] |
(Csak besorolás) A pozitív osztály. Ez olyan metrikák kiszámításához hasznos, mint a pontosság és a visszahívás. Csak bináris besorolási problémák esetén adható meg. |
time_col |
str |
A Databricks Runtime 10.1 ML-ben és újabb verziókban érhető el. Opcionális. Időoszlop oszlopneve. Ha meg van adva, az AutoML megpróbálja időrendben felosztani az adathalmazt betanítási, érvényesítési és tesztelési csoportokra, a legkorábbi pontokat betanítási adatként, a legújabb pontokat pedig tesztkészletként használva. Az elfogadott oszloptípusok időbélyegek és egész számok. A Databricks Runtime 10.2 ML és újabb verziók esetén a sztringoszlopok is támogatottak. Ha az oszloptípus sztring, az AutoML szemantikai észlelés használatával próbálja időbélyeggé alakítani. Ha az átalakítás sikertelen, az AutoML futtatása meghiúsul. |
split_col |
str |
Opcionális. Egy felosztott oszlop oszlopneve. Api-munkafolyamatokhoz csak a Databricks Runtime 15.3 ML-ben és újabb verziókban érhető el. Ha meg van adva, az AutoML megpróbálja felosztani a betanítási/érvényesítési/tesztelési csoportokat a felhasználó által megadott értékek szerint, és ez az oszlop automatikusan ki van zárva a betanítási funkciókból. Az elfogadott oszloptípus sztring. Az oszlopban szereplő bejegyzések értékének a következők egyikének kell lennie: "betanítása", "ellenőrzése" vagy "teszt". |
sample_weight_col |
str |
A Databricks Runtime 15.4 ML-ben és újabb verziókban érhető el besorolási API-munkafolyamatokhoz. Opcionális. Az egyes sorokhoz tartozó mintasúlyokat tartalmazó adathalmaz oszlopneve. A besorolás az osztályonkénti mintasúlyokat támogatja. Ezek a súlyok módosítják az egyes osztályok fontosságát a modell betanítása során. Az osztályon belüli mintáknak azonos mintával kell rendelkezniük, és a súlyoknak nem negatív tizedes vagy egész számoknak kell lenniük, 0 és 10 000 között. A nagyobb mintasúlyú osztályok fontosabbak, és nagyobb hatással vannak a tanulási algoritmusra. Ha ez az oszlop nincs megadva, a rendszer feltételezi, hogy minden osztály egyenlő súlyú. |
max_trials |
int |
Opcionális. Futtatható kísérletek maximális száma. Ez a paraméter a Databricks Runtime 10.5 ML-ben és az alatt érhető el, de a Databricks Runtime 10.3 ML-től kezdve elavult. A Databricks Runtime 11.0 ML és újabb verziókban ez a paraméter nem támogatott. Alapértelmezett: 20 Ha timeout_minutes=Nincs, az AutoML a kísérletek maximális számát futtatja. |
timeout_minutes |
int |
Opcionális. Az AutoML-kísérletek befejezésének maximális ideje. A hosszabb időtúllépések lehetővé teszik az AutoML számára, hogy több próbaverziót futtasson, és jobb pontossággal azonosítsa a modellt. Alapértelmezett: 120 perc Minimális érték: 5 perc Hiba jelenik meg, ha az időtúllépés túl rövid ahhoz, hogy legalább egy próbaidőszak befejeződjön. |
Regresszió
A databricks.automl.regress
metódus autoML-futtatást konfigurál egy regressziós modell betanításához. Ez a metódus egy AutoMLSummary értéket ad vissza.
Feljegyzés
A max_trials
paraméter elavult a Databricks Runtime 10.4 ML-ben, és a Databricks Runtime 11.0 ML és újabb verziókban nem támogatott. Az AutoML-futtatás időtartamának szabályozására használható timeout_minutes
.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Regressziós paraméterek
Paraméter neve | Típus | Leírás |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame pyspark.sql.DataFrame |
Betanítási funkciókat és célokat tartalmazó beviteli tábla neve vagy DataFrame. A tábla neve lehet "<database_name>" formátumú.<>table_name" vagy "<schema_name>.<>table_name" nem Unity-katalógustáblákhoz. |
target_col |
str |
A célcímke oszlopneve. |
primary_metric |
str |
A modell teljesítményének kiértékeléséhez és rangsorolásához használt metrika. A regresszió támogatott metrikái: "r2" (alapértelmezett), "mae", "rmse", "mse" A besorolás támogatott mérőszámai: "f1" (alapértelmezett), "log_loss", "pontosság", "pontosság", "roc_auc" |
data_dir |
str formátum dbfs:/<folder-name> |
Opcionális. A betanítási adatkészlet tárolására használt DBFS-elérési út. Ez az elérési út az illesztőprogram és a feldolgozó csomópontok számára is látható. A Databricks azt javasolja, hogy hagyja üresen a mezőt, így az AutoML MLflow-összetevőként mentheti a betanítási adathalmazt. Ha egyéni elérési út van megadva, az adathalmaz nem örökli az AutoML-kísérlet hozzáférési engedélyeit. |
experiment_dir |
str |
Opcionális. A létrehozott jegyzetfüzetek és kísérletek mentéséhez lépjen a munkaterület könyvtárához. Alapértelmezett: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcionális. Az AutoML által létrehozott MLflow-kísérlet neve. Alapértelmezett: A rendszer automatikusan létrehozza a nevet. |
exclude_cols |
List[str] |
Opcionális. Az AutoML-számítások során figyelmen kívül hagyandó oszlopok listája. Alapértelmezett: [] |
exclude_frameworks |
List[str] |
Opcionális. Azon algoritmus-keretrendszerek listája, amelyeket az AutoML nem érdemes figyelembe venni a modellek fejlesztése során. Lehetséges értékek: üres lista vagy egy vagy több "sklearn", "lightgbm", "xgboost". Alapértelmezett: [] (minden keretrendszert figyelembe kell venni) |
feature_store_lookups |
List[Dict] |
Opcionális. Az adatnagyobbítás funkciótár funkcióit képviselő szótárak listája. Az egyes szótárakban érvényes kulcsok a következők: - table_name (str): Kötelező. A szolgáltatástábla neve.- lookup_key (list vagy str): Kötelező. Kulcsként használandó oszlopnév(ek) a funkciótáblához való csatlakozáskor a dataset paramban átadott adatokkal. Az oszlopnevek sorrendjének meg kell egyeznie a funkciótábla elsődleges kulcsainak sorrendjével.- timestamp_lookup_key (str): Kötelező, ha a megadott tábla egy idősoros funkciótábla. A funkciótáblán az időponthoz kötött kereséshez használandó oszlopnév a paramban dataset átadott adatokkal.Alapértelmezett: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opcionális. Szótár, ahol minden kulcs egy oszlopnév, és minden érték egy sztring vagy szótár, amely leírja a számítási stratégiát. Ha sztringként van megadva, az értéknek a "középérték", a "medián" vagy a "most_frequent" egyikének kell lennie. Ha ismert értékkel szeretne impute-t adni, adja meg az értéket szótárként {"strategy": "constant", "fill_value": <desired value>} . A sztringbeállításokat például {"strategy": "mean"} szótárként is megadhatja.Ha nincs megadva számítási stratégia egy oszlophoz, az AutoML kiválaszt egy alapértelmezett stratégiát az oszloptípus és a tartalom alapján. Ha nem alapértelmezett számítási módszert ad meg, az AutoML nem végez szemantikai típusészlelést. Alapértelmezett: {} |
time_col |
str |
A Databricks Runtime 10.1 ML-ben és újabb verziókban érhető el. Opcionális. Időoszlop oszlopneve. Ha meg van adva, az AutoML megpróbálja időrendben felosztani az adathalmazt betanítási, érvényesítési és tesztelési csoportokra, a legkorábbi pontokat betanítási adatként, a legújabb pontokat pedig tesztkészletként használva. Az elfogadott oszloptípusok időbélyegek és egész számok. A Databricks Runtime 10.2 ML és újabb verziók esetén a sztringoszlopok is támogatottak. Ha az oszloptípus sztring, az AutoML szemantikai észlelés használatával próbálja időbélyeggé alakítani. Ha az átalakítás sikertelen, az AutoML futtatása meghiúsul. |
split_col |
str |
Opcionális. Egy felosztott oszlop oszlopneve. Api-munkafolyamatokhoz csak a Databricks Runtime 15.3 ML-ben és újabb verziókban érhető el. Ha meg van adva, az AutoML megpróbálja felosztani a betanítási/érvényesítési/tesztelési csoportokat a felhasználó által megadott értékek szerint, és ez az oszlop automatikusan ki van zárva a betanítási funkciókból. Az elfogadott oszloptípus sztring. Az oszlopban szereplő bejegyzések értékének a következők egyikének kell lennie: "betanítása", "ellenőrzése" vagy "teszt". |
sample_weight_col |
str |
A Databricks Runtime 15.3 ML-ben és újabb verziókban érhető el regressziós API-munkafolyamatokhoz. Opcionális. Az egyes sorokhoz tartozó mintasúlyokat tartalmazó adathalmaz oszlopneve. Ezek a súlyok a modell betanítása során módosítják az egyes sorok fontosságát. A súlyoknak nem negatív tizedes vagy egész számoknak kell lenniük, amelyek 0 és 10 000 közöttiek lehetnek. A nagyobb mintasúlyú sorok fontosabbak, és nagyobb hatással vannak a tanulási algoritmusra. Ha ez az oszlop nincs megadva, a rendszer feltételezi, hogy minden sor azonos súlyú. |
max_trials |
int |
Opcionális. Futtatható kísérletek maximális száma. Ez a paraméter a Databricks Runtime 10.5 ML-ben és az alatt érhető el, de a Databricks Runtime 10.3 ML-től kezdve elavult. A Databricks Runtime 11.0 ML és újabb verziókban ez a paraméter nem támogatott. Alapértelmezett: 20 Ha timeout_minutes=Nincs, az AutoML a kísérletek maximális számát futtatja. |
timeout_minutes |
int |
Opcionális. Az AutoML-kísérletek befejezésének maximális ideje. A hosszabb időtúllépések lehetővé teszik az AutoML számára, hogy több próbaverziót futtasson, és jobb pontossággal azonosítsa a modellt. Alapértelmezett: 120 perc Minimális érték: 5 perc Hiba jelenik meg, ha az időtúllépés túl rövid ahhoz, hogy legalább egy próbaidőszak befejeződjön. |
Előrejelzés
A databricks.automl.forecast
metódus autoML-futtatást konfigurál az előrejelzési modell betanításához. Ez a metódus egy AutoMLSummary értéket ad vissza.
Az Auto-ARIMA használatához az idősornak rendszeres gyakorisággal kell rendelkeznie (azaz a két pont közötti intervallumnak az idősor során azonosnak kell lennie). A gyakoriságnak meg kell egyeznie az API-hívásban megadott gyakorisági egységével. Az AutoML úgy kezeli a hiányzó időlépéseket, hogy az előző értékkel kitölti ezeket az értékeket.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Előrejelzési paraméterek
Paraméter neve | Típus | Leírás |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame pyspark.sql.DataFrame |
Betanítási funkciókat és célokat tartalmazó beviteli tábla neve vagy DataFrame. A tábla neve lehet "." formátumú. vagy "." nem Unity-katalógustáblákhoz |
target_col |
str |
A célcímke oszlopneve. |
time_col |
str |
Az előrejelzés időoszlopának neve. |
primary_metric |
str |
A modell teljesítményének kiértékeléséhez és rangsorolásához használt metrika. Támogatott metrikák: "smape" (alapértelmezett), "mse", "rmse", "mae" vagy "mdape". |
country_code |
str |
A Databricks Runtime 12.0 ML-ben és újabb verziókban érhető el. Csak a Próféta előrejelzési modellje támogatja. Opcionális. Kétbetűs országkód, amely jelzi, hogy melyik ország ünnepnapjait használja az előrejelzési modell. Az ünnepnapok figyelmen kívül hagyásához állítsa ezt a paramétert üres sztringre (""). Támogatott országok. Alapértelmezett: USA (Egyesült Államok ünnepnapok). |
frequency |
str |
Az előrejelzés idősorának gyakorisága. Ez az az időszak, amellyel az események várhatóan bekövetkeznek. Az alapértelmezett beállítás a "D" vagy a napi adatok. Ügyeljen arra, hogy módosítsa a beállítást, ha az adatok gyakorisága eltérő. Lehetséges értékek: "W" (hetek) "D" / "days" / "day" "óra" / "óra" / "hr" / "h" "m" / "minute" / "min" / "perc" / "T" "S" / "seconds" / "sec" / "second" A következők csak a Databricks Runtime 12.0 ML és újabb verziókban érhetők el: "M" / "hónap" / "hónap" "Q" / "quarter" / "quarters" "Y" / "év" / "év" Alapértelmezett: "D" |
horizon |
int |
Azoknak az időszakoknak a száma, amelyekre az előrejelzéseket vissza kell adni. Az egységek az idősor gyakorisága. Alapértelmezett: 1 |
data_dir |
str formátum dbfs:/<folder-name> |
Opcionális. A betanítási adatkészlet tárolására használt DBFS-elérési út. Ez az elérési út az illesztőprogram és a feldolgozó csomópontok számára is látható. A Databricks azt javasolja, hogy hagyja üresen a mezőt, így az AutoML MLflow-összetevőként mentheti a betanítási adathalmazt. Ha egyéni elérési út van megadva, az adathalmaz nem örökli az AutoML-kísérlet hozzáférési engedélyeit. |
experiment_dir |
str |
Opcionális. A létrehozott jegyzetfüzetek és kísérletek mentéséhez lépjen a munkaterület könyvtárához. Alapértelmezett: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcionális. Az AutoML által létrehozott MLflow-kísérlet neve. Alapértelmezett: A rendszer automatikusan létrehozza a nevet. |
exclude_frameworks |
List[str] |
Opcionális. Azon algoritmus-keretrendszerek listája, amelyeket az AutoML nem érdemes figyelembe venni a modellek fejlesztése során. Lehetséges értékek: üres lista vagy egy vagy több "próféta", "arima". Alapértelmezett: [] (minden keretrendszert figyelembe kell venni) |
feature_store_lookups |
List[Dict] |
Opcionális. A funkciótár kovarianizációs adatbővítési funkcióit képviselő szótárak listája. Az egyes szótárakban érvényes kulcsok a következők: - table_name (str): Kötelező. A szolgáltatástábla neve.- lookup_key (list vagy str): Kötelező. Kulcsként használandó oszlopnév(ek) a funkciótáblához való csatlakozáskor a dataset paramban átadott adatokkal. Az oszlopnevek sorrendjének meg kell egyeznie a funkciótábla elsődleges kulcsainak sorrendjével.- timestamp_lookup_key (str): Kötelező, ha a megadott tábla egy idősoros funkciótábla. A funkciótáblán az időponthoz kötött kereséshez használandó oszlopnév a paramban dataset átadott adatokkal.Alapértelmezett: [] |
identity_col |
Union[str, list] |
Opcionális. A többsoros előrejelzés idősorát azonosító oszlop(ok). Az AutoML ezen oszlop(ok) és az előrejelzéshez használt időoszlop szerint csoportosítja azokat. |
sample_weight_col |
str |
A Databricks Runtime 16.0 ML-ben és újabb verziókban érhető el. Csak több idősoros munkafolyamatokhoz. Opcionális. Megadja az adathalmaz azon oszlopát, amely mintasúlyokat tartalmaz. Ezek a súlyok jelzik az egyes idősorok relatív fontosságát a modell betanítása és kiértékelése során. A nagyobb súlyú idősorok nagyobb hatással vannak a modellre. Ha nincs megadva, minden idősor egyenlő súlyú lesz. Az azonos idősorhoz tartozó összes sornak azonos súlyúnak kell lennie. A súlyoknak nem negatív értékeknek kell lenniük, tizedes vagy egész szám, és 0 és 10 000 között kell lenniük. |
output_database |
str |
Opcionális. Ha meg van adva, az AutoML a legjobb modell előrejelzéseit menti egy új táblába a megadott adatbázisban. Alapértelmezett: Az előrejelzések nincsenek mentve. |
timeout_minutes |
int |
Opcionális. Az AutoML-kísérletek befejezésének maximális ideje. A hosszabb időtúllépések lehetővé teszik az AutoML számára, hogy több próbaverziót futtasson, és jobb pontossággal azonosítsa a modellt. Alapértelmezett: 120 perc Minimális érték: 5 perc Hiba jelenik meg, ha az időtúllépés túl rövid ahhoz, hogy legalább egy próbaidőszak befejeződjön. |
Jegyzetfüzet importálása
A databricks.automl.import_notebook
metódus egy MLflow-összetevőként mentett jegyzetfüzetet importál. Ez a metódus egy ImportNotebookResult értéket ad vissza.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Paraméterek | Típus | Leírás |
---|---|---|
artifact_uri |
str |
A próbajegyzetfüzetet tartalmazó MLflow-összetevő URI-ja. |
path |
str |
A Databricks-munkaterület elérési útja, ahol a jegyzetfüzetet importálni kell. Ennek abszolút elérési útnak kell lennie. A címtár akkor jön létre, ha nem létezik. |
overwrite |
bool |
A jegyzetfüzet felülírása, ha már létezik. Ez alapértelmezés szerint így van False . |
Példa jegyzetfüzet importálására
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Egy AutoML-futtatás összefoglaló objektuma, amely az egyes kísérletek metrikáit, paramétereit és egyéb részleteit ismerteti. Ezzel az objektummal egy adott próbaverzióval betanított modellt is betölthet.
Tulajdonság | Típus | Leírás |
---|---|---|
experiment |
mlflow.entities.Experiment |
A kísérletek naplózásához használt MLflow-kísérlet. |
trials |
List[TrialInfo] |
A TrialInfo-objektumok listája, amely információkat tartalmaz az összes futtatott próbaverzióról. |
best_trial |
TrialInfo |
Egy TrialInfo objektum, amely információkat tartalmaz a próbaverzióról, amely az elsődleges metrika legjobb súlyozott pontszámát eredményezte. |
metric_distribution |
str |
Az elsődleges metrika súlyozott pontszámainak eloszlása az összes próbaverzióban. |
output_table_name |
str |
Csak előrejelzéshez használható, és csak akkor, ha output_database van megadva. A modell előrejelzéseit tartalmazó output_database tábla neve. |
TrialInfo
Összesítő objektum minden egyes próbaverzióhoz.
Tulajdonság | Típus | Leírás |
---|---|---|
notebook_path |
Optional[str] |
A próbaverzióhoz létrehozott jegyzetfüzet elérési útja a munkaterületen. A besoroláshoz és a regresszióhoz ez az érték csak a legjobb próbaverzióhoz van beállítva None , míg az összes többi próba értéke .Az előrejelzéshez ez az érték az összes próba esetében jelen van. |
notebook_url |
Optional[str] |
A próbaverzióhoz létrehozott jegyzetfüzet URL-címe. A besoroláshoz és a regresszióhoz ez az érték csak a legjobb próbaverzióhoz van beállítva None , míg az összes többi próba értéke .Az előrejelzéshez ez az érték az összes próba esetében jelen van. |
artifact_uri |
Optional[str] |
A létrehozott jegyzetfüzet MLflow-összetevőjének URI-ja. |
mlflow_run_id |
str |
A próbafuttatáshoz társított MLflow-futtatási azonosító. |
metrics |
Dict[str, float] |
A próba MLflow-ban bejelentkezett metrikái. |
params |
Dict[str, str] |
A próbaverzióhoz használt MLflow-ban naplózott paraméterek. |
model_path |
str |
A próbaidőszakban betanított modell MLflow-összetevő URL-címe. |
model_description |
str |
A modell rövid leírása és a modell betanításához használt hiperparaméterek. |
duration |
str |
A betanítás időtartama percekben. |
preprocessors |
str |
A modell betanítása előtt futtatott előprocesszorok leírása. |
evaluation_metric_score |
float |
Az érvényesítési adatkészlethez kiértékelt elsődleges metrikák pontszáma. |
TrialInfo
rendelkezik egy metódussal a próbaverzióhoz létrehozott modell betöltéséhez.
Metódus | Leírás |
---|---|
load_model() |
Töltse be a próbaverzióban létrehozott modellt, amely MLflow-összetevőként van naplózva. |
ImportNotebookResult
Tulajdonság | Típus | Leírás |
---|---|---|
path |
str |
A Databricks-munkaterület elérési útja, ahol a jegyzetfüzetet importálni kell. Ennek abszolút elérési útnak kell lennie. A címtár akkor jön létre, ha nem létezik. |
url |
str |
A próbajegyzetfüzetet tartalmazó MLflow-összetevő URI-ja. |