Megosztás a következőn keresztül:


Mozaik AutoML Python API-referencia

Ez a cikk a Mozaik AutoML Python API-t ismerteti, amely módszereket kínál az AutoML-futtatások osztályozásának, regressziójának és előrejelzésének elindításához. Minden metódus meghívja a modellek egy készletét, és létrehoz egy próbajegyzetfüzetet minden modellhez.

További információ a Mozaik AutoML-ről, beleértve az alacsony kódú felhasználói felületet is, lásd : Mi az a Mozaik autoML?.

Besorolás

A databricks.automl.classify metódus egy Mozaik AutoML-futtatás konfigurálásával tanít be egy besorolási modellt.

Feljegyzés

A max_trials paraméter elavult a Databricks Runtime 10.4 ML-ben, és a Databricks Runtime 11.0 ML és újabb verziókban nem támogatott. Az AutoML-futtatás időtartamának szabályozására használható timeout_minutes .

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Paraméterek osztályozása

Paraméter neve Típus Leírás
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame Betanítási funkciókat és célokat tartalmazó beviteli tábla neve vagy DataFrame. A tábla neve lehet "<database_name>" formátumú.<>table_name" vagy "<schema_name>.<>table_name" nem Unity-katalógustáblákhoz.
target_col str A célcímke oszlopneve.
primary_metric str A modell teljesítményének kiértékeléséhez és rangsorolásához használt metrika.

A regresszió támogatott metrikái: "r2" (alapértelmezett), "mae", "rmse", "mse"

A besorolás támogatott mérőszámai: "f1" (alapértelmezett), "log_loss", "pontosság", "pontosság", "roc_auc"
data_dir str formátum dbfs:/<folder-name> Opcionális. A betanítási adatkészlet tárolására használt DBFS-elérési út. Ez az elérési út az illesztőprogram és a feldolgozó csomópontok számára is látható.

A Databricks azt javasolja, hogy hagyja üresen a mezőt, így az AutoML MLflow-összetevőként mentheti a betanítási adathalmazt.

Ha egyéni elérési út van megadva, az adathalmaz nem örökli az AutoML-kísérlet hozzáférési engedélyeit.
experiment_dir str Opcionális. A létrehozott jegyzetfüzetek és kísérletek mentéséhez lépjen a munkaterület könyvtárához.

Alapértelmezett: /Users/<username>/databricks_automl/
experiment_name str Opcionális. Az AutoML által létrehozott MLflow-kísérlet neve.

Alapértelmezett: A rendszer automatikusan létrehozza a nevet.
exclude_cols List[str] Opcionális. Az AutoML-számítások során figyelmen kívül hagyandó oszlopok listája.

Alapértelmezett: []
exclude_frameworks List[str] Opcionális. Azon algoritmus-keretrendszerek listája, amelyeket az AutoML nem érdemes figyelembe venni a modellek fejlesztése során. Lehetséges értékek: üres lista vagy egy vagy több "sklearn", "lightgbm", "xgboost".

Alapértelmezett: [] (minden keretrendszert figyelembe kell venni)
feature_store_lookups List[Dict] Opcionális. Az adatnagyobbítás funkciótár funkcióit képviselő szótárak listája. Az egyes szótárakban érvényes kulcsok a következők:

- table_name (str): Kötelező. A szolgáltatástábla neve.
- lookup_key (list vagy str): Kötelező. Kulcsként használandó oszlopnév(ek) a funkciótáblához való csatlakozáskor a dataset paramban átadott adatokkal. Az oszlopnevek sorrendjének meg kell egyeznie a funkciótábla elsődleges kulcsainak sorrendjével.
- timestamp_lookup_key (str): Kötelező, ha a megadott tábla egy idősoros funkciótábla. A funkciótáblán az időponthoz kötött kereséshez használandó oszlopnév a paramban dataset átadott adatokkal.

Alapértelmezett: []
imputers Dict[str, Union[str, Dict[str, Any]]] Opcionális. Szótár, ahol minden kulcs egy oszlopnév, és minden érték egy sztring vagy szótár, amely leírja a számítási stratégiát. Ha sztringként van megadva, az értéknek a "középérték", a "medián" vagy a "most_frequent" egyikének kell lennie. Ha ismert értékkel szeretne impute-t adni, adja meg az értéket szótárként {"strategy": "constant", "fill_value": <desired value>}. A sztringbeállításokat például {"strategy": "mean"}szótárként is megadhatja.

Ha nincs megadva számítási stratégia egy oszlophoz, az AutoML kiválaszt egy alapértelmezett stratégiát az oszloptípus és a tartalom alapján. Ha nem alapértelmezett számítási módszert ad meg, az AutoML nem végez szemantikai típusészlelést.

Alapértelmezett: {}
pos_label Union[int, bool, str] (Csak besorolás) A pozitív osztály. Ez olyan metrikák kiszámításához hasznos, mint a pontosság és a visszahívás. Csak bináris besorolási problémák esetén adható meg.
time_col str A Databricks Runtime 10.1 ML-ben és újabb verziókban érhető el.

Opcionális. Időoszlop oszlopneve.

Ha meg van adva, az AutoML megpróbálja időrendben felosztani az adathalmazt betanítási, érvényesítési és tesztelési csoportokra, a legkorábbi pontokat betanítási adatként, a legújabb pontokat pedig tesztkészletként használva.

Az elfogadott oszloptípusok időbélyegek és egész számok. A Databricks Runtime 10.2 ML és újabb verziók esetén a sztringoszlopok is támogatottak.

Ha az oszloptípus sztring, az AutoML szemantikai észlelés használatával próbálja időbélyeggé alakítani. Ha az átalakítás sikertelen, az AutoML futtatása meghiúsul.
split_col str Opcionális. Egy felosztott oszlop oszlopneve. Api-munkafolyamatokhoz csak a Databricks Runtime 15.3 ML-ben és újabb verziókban érhető el. Ha meg van adva, az AutoML megpróbálja felosztani a betanítási/érvényesítési/tesztelési csoportokat a felhasználó által megadott értékek szerint, és ez az oszlop automatikusan ki van zárva a betanítási funkciókból.

Az elfogadott oszloptípus sztring. Az oszlopban szereplő bejegyzések értékének a következők egyikének kell lennie: "betanítása", "ellenőrzése" vagy "teszt".
sample_weight_col str A Databricks Runtime 15.4 ML-ben és újabb verziókban érhető el besorolási API-munkafolyamatokhoz.

Opcionális. Az egyes sorokhoz tartozó mintasúlyokat tartalmazó adathalmaz oszlopneve. A besorolás az osztályonkénti mintasúlyokat támogatja. Ezek a súlyok módosítják az egyes osztályok fontosságát a modell betanítása során. Az osztályon belüli mintáknak azonos mintával kell rendelkezniük, és a súlyoknak nem negatív tizedes vagy egész számoknak kell lenniük, 0 és 10 000 között. A nagyobb mintasúlyú osztályok fontosabbak, és nagyobb hatással vannak a tanulási algoritmusra. Ha ez az oszlop nincs megadva, a rendszer feltételezi, hogy minden osztály egyenlő súlyú.
max_trials int Opcionális. Futtatható kísérletek maximális száma. Ez a paraméter a Databricks Runtime 10.5 ML-ben és az alatt érhető el, de a Databricks Runtime 10.3 ML-től kezdve elavult. A Databricks Runtime 11.0 ML és újabb verziókban ez a paraméter nem támogatott.

Alapértelmezett: 20

Ha timeout_minutes=Nincs, az AutoML a kísérletek maximális számát futtatja.
timeout_minutes int Opcionális. Az AutoML-kísérletek befejezésének maximális ideje. A hosszabb időtúllépések lehetővé teszik az AutoML számára, hogy több próbaverziót futtasson, és jobb pontossággal azonosítsa a modellt.

Alapértelmezett: 120 perc

Minimális érték: 5 perc

Hiba jelenik meg, ha az időtúllépés túl rövid ahhoz, hogy legalább egy próbaidőszak befejeződjön.

Regresszió

A databricks.automl.regress metódus autoML-futtatást konfigurál egy regressziós modell betanításához. Ez a metódus egy AutoMLSummary értéket ad vissza.

Feljegyzés

A max_trials paraméter elavult a Databricks Runtime 10.4 ML-ben, és a Databricks Runtime 11.0 ML és újabb verziókban nem támogatott. Az AutoML-futtatás időtartamának szabályozására használható timeout_minutes .

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Regressziós paraméterek

Paraméter neve Típus Leírás
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame Betanítási funkciókat és célokat tartalmazó beviteli tábla neve vagy DataFrame. A tábla neve lehet "<database_name>" formátumú.<>table_name" vagy "<schema_name>.<>table_name" nem Unity-katalógustáblákhoz.
target_col str A célcímke oszlopneve.
primary_metric str A modell teljesítményének kiértékeléséhez és rangsorolásához használt metrika.

A regresszió támogatott metrikái: "r2" (alapértelmezett), "mae", "rmse", "mse"

A besorolás támogatott mérőszámai: "f1" (alapértelmezett), "log_loss", "pontosság", "pontosság", "roc_auc"
data_dir str formátum dbfs:/<folder-name> Opcionális. A betanítási adatkészlet tárolására használt DBFS-elérési út. Ez az elérési út az illesztőprogram és a feldolgozó csomópontok számára is látható.

A Databricks azt javasolja, hogy hagyja üresen a mezőt, így az AutoML MLflow-összetevőként mentheti a betanítási adathalmazt.

Ha egyéni elérési út van megadva, az adathalmaz nem örökli az AutoML-kísérlet hozzáférési engedélyeit.
experiment_dir str Opcionális. A létrehozott jegyzetfüzetek és kísérletek mentéséhez lépjen a munkaterület könyvtárához.

Alapértelmezett: /Users/<username>/databricks_automl/
experiment_name str Opcionális. Az AutoML által létrehozott MLflow-kísérlet neve.

Alapértelmezett: A rendszer automatikusan létrehozza a nevet.
exclude_cols List[str] Opcionális. Az AutoML-számítások során figyelmen kívül hagyandó oszlopok listája.

Alapértelmezett: []
exclude_frameworks List[str] Opcionális. Azon algoritmus-keretrendszerek listája, amelyeket az AutoML nem érdemes figyelembe venni a modellek fejlesztése során. Lehetséges értékek: üres lista vagy egy vagy több "sklearn", "lightgbm", "xgboost".

Alapértelmezett: [] (minden keretrendszert figyelembe kell venni)
feature_store_lookups List[Dict] Opcionális. Az adatnagyobbítás funkciótár funkcióit képviselő szótárak listája. Az egyes szótárakban érvényes kulcsok a következők:

- table_name (str): Kötelező. A szolgáltatástábla neve.
- lookup_key (list vagy str): Kötelező. Kulcsként használandó oszlopnév(ek) a funkciótáblához való csatlakozáskor a dataset paramban átadott adatokkal. Az oszlopnevek sorrendjének meg kell egyeznie a funkciótábla elsődleges kulcsainak sorrendjével.
- timestamp_lookup_key (str): Kötelező, ha a megadott tábla egy idősoros funkciótábla. A funkciótáblán az időponthoz kötött kereséshez használandó oszlopnév a paramban dataset átadott adatokkal.

Alapértelmezett: []
imputers Dict[str, Union[str, Dict[str, Any]]] Opcionális. Szótár, ahol minden kulcs egy oszlopnév, és minden érték egy sztring vagy szótár, amely leírja a számítási stratégiát. Ha sztringként van megadva, az értéknek a "középérték", a "medián" vagy a "most_frequent" egyikének kell lennie. Ha ismert értékkel szeretne impute-t adni, adja meg az értéket szótárként {"strategy": "constant", "fill_value": <desired value>}. A sztringbeállításokat például {"strategy": "mean"}szótárként is megadhatja.

Ha nincs megadva számítási stratégia egy oszlophoz, az AutoML kiválaszt egy alapértelmezett stratégiát az oszloptípus és a tartalom alapján. Ha nem alapértelmezett számítási módszert ad meg, az AutoML nem végez szemantikai típusészlelést.

Alapértelmezett: {}
time_col str A Databricks Runtime 10.1 ML-ben és újabb verziókban érhető el.

Opcionális. Időoszlop oszlopneve.

Ha meg van adva, az AutoML megpróbálja időrendben felosztani az adathalmazt betanítási, érvényesítési és tesztelési csoportokra, a legkorábbi pontokat betanítási adatként, a legújabb pontokat pedig tesztkészletként használva.

Az elfogadott oszloptípusok időbélyegek és egész számok. A Databricks Runtime 10.2 ML és újabb verziók esetén a sztringoszlopok is támogatottak.

Ha az oszloptípus sztring, az AutoML szemantikai észlelés használatával próbálja időbélyeggé alakítani. Ha az átalakítás sikertelen, az AutoML futtatása meghiúsul.
split_col str Opcionális. Egy felosztott oszlop oszlopneve. Api-munkafolyamatokhoz csak a Databricks Runtime 15.3 ML-ben és újabb verziókban érhető el. Ha meg van adva, az AutoML megpróbálja felosztani a betanítási/érvényesítési/tesztelési csoportokat a felhasználó által megadott értékek szerint, és ez az oszlop automatikusan ki van zárva a betanítási funkciókból.

Az elfogadott oszloptípus sztring. Az oszlopban szereplő bejegyzések értékének a következők egyikének kell lennie: "betanítása", "ellenőrzése" vagy "teszt".
sample_weight_col str A Databricks Runtime 15.3 ML-ben és újabb verziókban érhető el regressziós API-munkafolyamatokhoz.

Opcionális. Az egyes sorokhoz tartozó mintasúlyokat tartalmazó adathalmaz oszlopneve. Ezek a súlyok a modell betanítása során módosítják az egyes sorok fontosságát. A súlyoknak nem negatív tizedes vagy egész számoknak kell lenniük, amelyek 0 és 10 000 közöttiek lehetnek. A nagyobb mintasúlyú sorok fontosabbak, és nagyobb hatással vannak a tanulási algoritmusra. Ha ez az oszlop nincs megadva, a rendszer feltételezi, hogy minden sor azonos súlyú.
max_trials int Opcionális. Futtatható kísérletek maximális száma. Ez a paraméter a Databricks Runtime 10.5 ML-ben és az alatt érhető el, de a Databricks Runtime 10.3 ML-től kezdve elavult. A Databricks Runtime 11.0 ML és újabb verziókban ez a paraméter nem támogatott.

Alapértelmezett: 20

Ha timeout_minutes=Nincs, az AutoML a kísérletek maximális számát futtatja.
timeout_minutes int Opcionális. Az AutoML-kísérletek befejezésének maximális ideje. A hosszabb időtúllépések lehetővé teszik az AutoML számára, hogy több próbaverziót futtasson, és jobb pontossággal azonosítsa a modellt.

Alapértelmezett: 120 perc

Minimális érték: 5 perc

Hiba jelenik meg, ha az időtúllépés túl rövid ahhoz, hogy legalább egy próbaidőszak befejeződjön.

Előrejelzés

A databricks.automl.forecast metódus autoML-futtatást konfigurál az előrejelzési modell betanításához. Ez a metódus egy AutoMLSummary értéket ad vissza. Az Auto-ARIMA használatához az idősornak rendszeres gyakorisággal kell rendelkeznie (azaz a két pont közötti intervallumnak az idősor során azonosnak kell lennie). A gyakoriságnak meg kell egyeznie az API-hívásban megadott gyakorisági egységével. Az AutoML úgy kezeli a hiányzó időlépéseket, hogy az előző értékkel kitölti ezeket az értékeket.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Előrejelzési paraméterek

Paraméter neve Típus Leírás
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame Betanítási funkciókat és célokat tartalmazó beviteli tábla neve vagy DataFrame.

A tábla neve lehet "." formátumú. vagy "." nem Unity-katalógustáblákhoz
target_col str A célcímke oszlopneve.
time_col str Az előrejelzés időoszlopának neve.
primary_metric str A modell teljesítményének kiértékeléséhez és rangsorolásához használt metrika.

Támogatott metrikák: "smape" (alapértelmezett), "mse", "rmse", "mae" vagy "mdape".
country_code str A Databricks Runtime 12.0 ML-ben és újabb verziókban érhető el. Csak a Próféta előrejelzési modellje támogatja.

Opcionális. Kétbetűs országkód, amely jelzi, hogy melyik ország ünnepnapjait használja az előrejelzési modell. Az ünnepnapok figyelmen kívül hagyásához állítsa ezt a paramétert üres sztringre ("").

Támogatott országok.

Alapértelmezett: USA (Egyesült Államok ünnepnapok).
frequency str Az előrejelzés idősorának gyakorisága. Ez az az időszak, amellyel az események várhatóan bekövetkeznek. Az alapértelmezett beállítás a "D" vagy a napi adatok. Ügyeljen arra, hogy módosítsa a beállítást, ha az adatok gyakorisága eltérő.

Lehetséges értékek:

"W" (hetek)

"D" / "days" / "day"

"óra" / "óra" / "hr" / "h"

"m" / "minute" / "min" / "perc" / "T"

"S" / "seconds" / "sec" / "second"

A következők csak a Databricks Runtime 12.0 ML és újabb verziókban érhetők el:

"M" / "hónap" / "hónap"

"Q" / "quarter" / "quarters"

"Y" / "év" / "év"

Alapértelmezett: "D"
horizon int Azoknak az időszakoknak a száma, amelyekre az előrejelzéseket vissza kell adni.

Az egységek az idősor gyakorisága.

Alapértelmezett: 1
data_dir str formátum dbfs:/<folder-name> Opcionális. A betanítási adatkészlet tárolására használt DBFS-elérési út. Ez az elérési út az illesztőprogram és a feldolgozó csomópontok számára is látható.

A Databricks azt javasolja, hogy hagyja üresen a mezőt, így az AutoML MLflow-összetevőként mentheti a betanítási adathalmazt.

Ha egyéni elérési út van megadva, az adathalmaz nem örökli az AutoML-kísérlet hozzáférési engedélyeit.
experiment_dir str Opcionális. A létrehozott jegyzetfüzetek és kísérletek mentéséhez lépjen a munkaterület könyvtárához.

Alapértelmezett: /Users/<username>/databricks_automl/
experiment_name str Opcionális. Az AutoML által létrehozott MLflow-kísérlet neve.

Alapértelmezett: A rendszer automatikusan létrehozza a nevet.
exclude_frameworks List[str] Opcionális. Azon algoritmus-keretrendszerek listája, amelyeket az AutoML nem érdemes figyelembe venni a modellek fejlesztése során. Lehetséges értékek: üres lista vagy egy vagy több "próféta", "arima".

Alapértelmezett: [] (minden keretrendszert figyelembe kell venni)
feature_store_lookups List[Dict] Opcionális. A funkciótár kovarianizációs adatbővítési funkcióit képviselő szótárak listája. Az egyes szótárakban érvényes kulcsok a következők:

- table_name (str): Kötelező. A szolgáltatástábla neve.
- lookup_key (list vagy str): Kötelező. Kulcsként használandó oszlopnév(ek) a funkciótáblához való csatlakozáskor a dataset paramban átadott adatokkal. Az oszlopnevek sorrendjének meg kell egyeznie a funkciótábla elsődleges kulcsainak sorrendjével.
- timestamp_lookup_key (str): Kötelező, ha a megadott tábla egy idősoros funkciótábla. A funkciótáblán az időponthoz kötött kereséshez használandó oszlopnév a paramban dataset átadott adatokkal.

Alapértelmezett: []
identity_col Union[str, list] Opcionális. A többsoros előrejelzés idősorát azonosító oszlop(ok). Az AutoML ezen oszlop(ok) és az előrejelzéshez használt időoszlop szerint csoportosítja azokat.
sample_weight_col str A Databricks Runtime 16.0 ML-ben és újabb verziókban érhető el. Csak több idősoros munkafolyamatokhoz.

Opcionális. Megadja az adathalmaz azon oszlopát, amely mintasúlyokat tartalmaz. Ezek a súlyok jelzik az egyes idősorok relatív fontosságát a modell betanítása és kiértékelése során.

A nagyobb súlyú idősorok nagyobb hatással vannak a modellre. Ha nincs megadva, minden idősor egyenlő súlyú lesz.

Az azonos idősorhoz tartozó összes sornak azonos súlyúnak kell lennie.

A súlyoknak nem negatív értékeknek kell lenniük, tizedes vagy egész szám, és 0 és 10 000 között kell lenniük.
output_database str Opcionális. Ha meg van adva, az AutoML a legjobb modell előrejelzéseit menti egy új táblába a megadott adatbázisban.

Alapértelmezett: Az előrejelzések nincsenek mentve.
timeout_minutes int Opcionális. Az AutoML-kísérletek befejezésének maximális ideje. A hosszabb időtúllépések lehetővé teszik az AutoML számára, hogy több próbaverziót futtasson, és jobb pontossággal azonosítsa a modellt.

Alapértelmezett: 120 perc

Minimális érték: 5 perc

Hiba jelenik meg, ha az időtúllépés túl rövid ahhoz, hogy legalább egy próbaidőszak befejeződjön.

Jegyzetfüzet importálása

A databricks.automl.import_notebook metódus egy MLflow-összetevőként mentett jegyzetfüzetet importál. Ez a metódus egy ImportNotebookResult értéket ad vissza.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Paraméterek Típus Leírás
artifact_uri str A próbajegyzetfüzetet tartalmazó MLflow-összetevő URI-ja.
path str A Databricks-munkaterület elérési útja, ahol a jegyzetfüzetet importálni kell. Ennek abszolút elérési útnak kell lennie. A címtár akkor jön létre, ha nem létezik.
overwrite bool A jegyzetfüzet felülírása, ha már létezik. Ez alapértelmezés szerint így van False .

Példa jegyzetfüzet importálására

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Egy AutoML-futtatás összefoglaló objektuma, amely az egyes kísérletek metrikáit, paramétereit és egyéb részleteit ismerteti. Ezzel az objektummal egy adott próbaverzióval betanított modellt is betölthet.

Tulajdonság Típus Leírás
experiment mlflow.entities.Experiment A kísérletek naplózásához használt MLflow-kísérlet.
trials List[TrialInfo] A TrialInfo-objektumok listája, amely információkat tartalmaz az összes futtatott próbaverzióról.
best_trial TrialInfo Egy TrialInfo objektum, amely információkat tartalmaz a próbaverzióról, amely az elsődleges metrika legjobb súlyozott pontszámát eredményezte.
metric_distribution str Az elsődleges metrika súlyozott pontszámainak eloszlása az összes próbaverzióban.
output_table_name str Csak előrejelzéshez használható, és csak akkor, ha output_database van megadva.

A modell előrejelzéseit tartalmazó output_database tábla neve.

TrialInfo

Összesítő objektum minden egyes próbaverzióhoz.

Tulajdonság Típus Leírás
notebook_path Optional[str] A próbaverzióhoz létrehozott jegyzetfüzet elérési útja a munkaterületen.

A besoroláshoz és a regresszióhoz ez az érték csak a legjobb próbaverzióhoz van beállítva None, míg az összes többi próba értéke .

Az előrejelzéshez ez az érték az összes próba esetében jelen van.
notebook_url Optional[str] A próbaverzióhoz létrehozott jegyzetfüzet URL-címe.

A besoroláshoz és a regresszióhoz ez az érték csak a legjobb próbaverzióhoz van beállítva None, míg az összes többi próba értéke .

Az előrejelzéshez ez az érték az összes próba esetében jelen van.
artifact_uri Optional[str] A létrehozott jegyzetfüzet MLflow-összetevőjének URI-ja.
mlflow_run_id str A próbafuttatáshoz társított MLflow-futtatási azonosító.
metrics Dict[str, float] A próba MLflow-ban bejelentkezett metrikái.
params Dict[str, str] A próbaverzióhoz használt MLflow-ban naplózott paraméterek.
model_path str A próbaidőszakban betanított modell MLflow-összetevő URL-címe.
model_description str A modell rövid leírása és a modell betanításához használt hiperparaméterek.
duration str A betanítás időtartama percekben.
preprocessors str A modell betanítása előtt futtatott előprocesszorok leírása.
evaluation_metric_score float Az érvényesítési adatkészlethez kiértékelt elsődleges metrikák pontszáma.

TrialInfo rendelkezik egy metódussal a próbaverzióhoz létrehozott modell betöltéséhez.

Metódus Leírás
load_model() Töltse be a próbaverzióban létrehozott modellt, amely MLflow-összetevőként van naplózva.

ImportNotebookResult

Tulajdonság Típus Leírás
path str A Databricks-munkaterület elérési útja, ahol a jegyzetfüzetet importálni kell. Ennek abszolút elérési útnak kell lennie. A címtár akkor jön létre, ha nem létezik.
url str A próbajegyzetfüzetet tartalmazó MLflow-összetevő URI-ja.