Databricks Runtime 9.1 LTS gépi Tanulás

A Databricks 2021 szeptemberében kiadta ezt a képet, és 2021 szeptemberében hosszú távú támogatásnak (LTS) nyilvánította.

A Databricks Runtime 9.1 LTS for Machine Tanulás a Databricks Runtime 9.1 LTS-en alapuló, használatra kész környezetet biztosít a gépi tanuláshoz és az adatelemzéshez. A Databricks Runtime ML számos népszerű gépi tanulási kódtárat tartalmaz, köztük a TensorFlow-t, a PyTorch-ot és az XGBoost-t. A Databricks Runtime ML tartalmazza az AutoML-t, amely a gépi tanulási folyamatok automatikus betanítására szolgáló eszköz. A Databricks Runtime ML támogatja az elosztott mélytanulási képzést a Horovod használatával.

Feljegyzés

Az LTS azt jelenti, hogy ez a verzió hosszú távú támogatás alatt áll. Lásd: Databricks Runtime LTS-verzió életciklusa.

További információkért, beleértve a Databricks Runtime ML-fürt létrehozásának utasításait, tekintse meg a Databricks migrálási és gépi Tanulás.

Új funkciók és fejlesztések

AutoML

A Databricks Runtime 9.1 LTS ML és újabb verziókban az alábbi fejlesztések érhetők el.

Az AutoML mintavételezéssel támogatja a nagyobb adathalmazokat

Az AutoML mostantól olyan adathalmazokat mintáz, amelyek túlléphetik a memóriakorlátokat, így nagyobb adathalmazokon futtathatók, és kisebb a memóriahiányos hibák kockázata. További részletekért lásd : Nagy adathalmazok mintavételezése.

Az AutoML szemantikai típus alapján dolgozza fel az oszlopokat

Az AutoML észlel bizonyos oszlopokat, amelyek szemantikai típusa eltér a Spark- vagy pandas-adattípustól. Az AutoML ezután konvertálja és alkalmazza az adatelőfeldolgozási lépéseket az észlelt szemantikai típus alapján. Az AutoML a következő átalakításokat hajtja végre:

  • A dátum- vagy időbélyegadatokat ábrázoló sztring- és egész számoszlopok időbélyeg típusúvá alakulnak.
  • A numerikus adatokat ábrázoló sztringoszlopok numerikus típussá lesznek konvertálva.

Az AutoML által létrehozott jegyzetfüzetek fejlesztései

A dátum- és időbélyegoszlopok előfeldolgozási lépései mostantól be vannak építve a databricks-automl-runtime csomagba, leegyszerűsítve az AutoML-betanítás által létrehozott jegyzetfüzeteket. databricks-automl-runtimea Databricks Runtime 9.1 LTS ML és újabb verziója tartalmazza, és a PyPI-ban is elérhető.

Funkciótár

A Databricks Runtime 9.1 LTS ML és újabb verziókban az alábbi fejlesztések érhetők el.

  • A TrainingSet létrehozásakor mostantól beállíthatja label=None , hogy támogassa a nem felügyelt tanulási alkalmazásokat.
  • Mostantól egyetlen szolgáltatásban több funkciót FeatureLookupis megadhat.
  • Mostantól megadhat egy egyéni elérési utat a funkciótáblákhoz. Használja a paramétert a path következőben create_feature_table(): . Az alapértelmezett az adatbázis helye.
  • Új támogatott PySpark-adattípusok: ArrayType és ShortType.

Mlflow

Az alábbi fejlesztések az Mlflow 1.20.2-es verziójától érhetők el, amely a Databricks Runtime 9.1 LTS ML része.

  • A scikit-learn automatikus címkézése mostantól a betanítás utáni metrikákat rögzíti, amikor meghívnak egy scikit-learn kiértékelési API-t, például sklearn.metrics.mean_squared_error.
  • A PySpark ML automatikus betanítása mostantól a betanítás utáni metrikákat rögzíti, amikor egy modellértékelési API-t ( például Evaluator.evaluate()) meghívnak.
  • mlflow.*.log_model és mlflow.*.save_model most már rendelkezik pip_requirements és extra_pip_requirements argumentumokkal rendelkezik, hogy közvetlenül megadhatja a naplózni vagy menteni kívánt modell pipkövetelményeit.
  • mlflow.*.log_model és mlflow.*.save_model most automatikusan kiköveteli a modell pipkövetelményét a jelenlegi szoftverkörnyezet alapján történő naplózáshoz vagy mentéshez.
  • stdMetrics A bejegyzések mostantól betanítási metrikákként lesznek rögzítve a PySpark CrossValidator automatikus kitöltése során.
  • A PyTorch Lightning automatikus naplózása mostantól támogatja az elosztott végrehajtást.

Databricks autologging (nyilvános előzetes verzió)

A Databricks nyilvános előzetes verziója új régiókra bővült. A Databricks Autologging egy kód nélküli megoldás, amely automatikus kísérletkövetést biztosít az Azure Databricks gépi tanulási betanítási munkameneteihez. A Databricks autologging funkciójával a modellparaméterek, a metrikák, a fájlok és az életút adatai automatikusan rögzítésre kerülnek, amikor modelleket tanít be számos népszerű gépi tanulási kódtárból. A betanítási munkamenetek MLflow-nyomkövetési futtatásokként vannak rögzítve. A modellfájlok is nyomon követhetők, így egyszerűen naplózhatja őket az MLflow modellregisztrációs adatbázisában, és valós idejű pontozás céljából üzembe helyezheti őket az MLflow modellkiszolgálóval.

További információ a Databricks automatikus kereséséről: Databricks Autologging.

A Databricks Runtime ML Python-környezetének főbb változásai

Python-csomagok frissítve

  • automl 1.1.1 => 1.2.1
  • feature_store 0.3.3 => 0.3.4.1
  • ünnepnapok 0.10.5.2 => 0.11.2
  • keras 2.5.0 => 2.6.0
  • mlflow 1.19.0 => 1.20.2
  • petastorm 0.11.1 => 0.11.2
  • diagram 4.14.3 => 5.1.0
  • spark-tensorflow-distributor 0.1.0 => 1.0.0
  • sparkdl 2.2.0_db1 => 2.2.0_db3
  • tensorboard 2.5.0 => 2.6.0
  • tensorflow 2.5.0 => 2.6.0

Python-csomagok hozzáadva

  • databricks-automl-runtime 0.1.0

Rendszerkörnyezet

A Databricks Runtime 9.1 LTS ML rendszerkörnyezete az alábbiak szerint különbözik a Databricks Runtime 9.1 LTS-től:

Kódtárak

Az alábbi szakaszok a Databricks Runtime 9.1 LTS ML-ben található kódtárakat sorolják fel, amelyek eltérnek a Databricks Runtime 9.1 LTS-ben találhatóaktól.

Ebben a szakaszban:

Felső szintű kódtárak

A Databricks Runtime 9.1 LTS ML a következő legfelső szintű kódtárakat tartalmazza:

Python-kódtárak

A Databricks Runtime 9.1 LTS ML a Virtualenv-t használja a Python-csomagkezeléshez, és számos népszerű ML-csomagot tartalmaz.

A következő szakaszokban megadott csomagok mellett a Databricks Runtime 9.1 LTS ML a következő csomagokat is tartalmazza:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db3
  • feature_store 0.3.4.1
  • automl 1.2.1

Python-kódtárak CPU-fürtökön

Könyvtár Verzió Könyvtár Verzió Könyvtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
aszinkron generátor 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 Fehérítő 3.3.0 boto3 1.16.7
botocore 1.19.7 Torlódás 1.3.2 cachetools 4.2.2
minősítés 2020.12.5 cffi 1.14.5 karakterkészlet 4.0.0
clang 5,0 kattintás 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 konvertálás 2.3.2
Titkosítás 3.4.7 cycler 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Dekoratőr 5.0.6 defusedxml 0.7.1 Kapros 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0,23ubuntu1
belépési pontok 0.3 ephem 4.0.0.2 aspektusok áttekintése 1.0.0
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Jövőben 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-hitelesítés 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-konverter 2.2.1
Ünnepek 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.0 keras 2.6.0 Keras-Előfeldolgozás 1.1.2
kiwisolver 1.3.1 Koalák 1.8.1 koreai-holdnaptár 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Makó 1.1.3 Markdown 3.3.3 Korrektúra Széf 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 nltk 3.6.1
jegyzetfüzet 6.3.0 numba 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Csomagolás 20.9
pandas 1.2.4 pandas-profilkészítés 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Párna 8.2.0 Pip 21.0.1
ábrázolás 5.1.0 prometheus-client 0.10.1 prompt-toolkit 3.0.17
Próféta 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 kérelmek 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 scikit-learn 0.24.1 scipy 1.6.2
tengeri 0.11.1 Send2Trash 1.5.0 setuptools 52.0.0
setuptools-git 1,2 shap 0.39.0 simplejson 3.17.2
Hat 1.15.0 Szeletelő 0.0.7 smmap 3.0.5
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 ssh-import-id 5.10
statsmodels 0.12.2 táblázatos 0.8.7 tangled-up-in-unicode 0.1.0
Kitartás 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 Fáklya 1.9.0+cpu torchvision 0.10.0+cpu
Tornádó 6.1 tqdm 4.59.0 árulók 5.0.5
gépelés-bővítmények 3.7.4.3 ujson 4.0.2 felügyelet nélküli frissítések 0,1
urllib3 1.25.11 virtualenv 20.4.1 Látomások 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Kerék 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 zipp 3.4.1

Python-kódtárak GPU-fürtökön

Könyvtár Verzió Könyvtár Verzió Könyvtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
aszinkron generátor 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 Fehérítő 3.3.0 boto3 1.16.7
botocore 1.19.7 Torlódás 1.3.2 cachetools 4.2.2
minősítés 2020.12.5 cffi 1.14.5 karakterkészlet 4.0.0
clang 5,0 kattintás 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 konvertálás 2.3.2
Titkosítás 3.4.7 cycler 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Dekoratőr 5.0.6 defusedxml 0.7.1 Kapros 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0,23ubuntu1
belépési pontok 0.3 ephem 4.0.0.2 aspektusok áttekintése 1.0.0
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Jövőben 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-hitelesítés 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-konverter 2.2.1
Ünnepek 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.0 keras 2.6.0 Keras-Előfeldolgozás 1.1.2
kiwisolver 1.3.1 Koalák 1.8.1 koreai-holdnaptár 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Makó 1.1.3 Markdown 3.3.3 Korrektúra Széf 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 nltk 3.6.1
jegyzetfüzet 6.3.0 numba 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Csomagolás 20.9
pandas 1.2.4 pandas-profilkészítés 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Párna 8.2.0 Pip 21.0.1
ábrázolás 5.1.0 prompt-toolkit 3.0.17 Próféta 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor 1.0.4 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
Regex 2021.4.4 kérelmek 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 Rsa 4.7.2 s3transfer 0.3.7
scikit-learn 0.24.1 scipy 1.6.2 tengeri 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1,2
shap 0.39.0 simplejson 3.17.2 Hat 1.15.0
Szeletelő 0.0.7 smmap 3.0.5 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 ssh-import-id 5.10 statsmodels 0.12.2
táblázatos 0.8.7 tangled-up-in-unicode 0.1.0 Kitartás 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-wit 1.8.0
tensorflow 2.6.0 tensorflow-estimator 2.6.0 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 threadpoolctl 2.1.0
Fáklya 1.9.0+cu111 torchvision 0.10.0+cu111 Tornádó 6.1
tqdm 4.59.0 árulók 5.0.5 gépelés-bővítmények 3.7.4.3
ujson 4.0.2 felügyelet nélküli frissítések 0,1 urllib3 1.25.11
virtualenv 20.4.1 Látomások 0.7.1 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Kerék 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 zipp 3.4.1

Python-modulokat tartalmazó Spark-csomagok

Spark-csomag Python-modul Verzió
gráfkeretek gráfkeretek 0.8.1-db3-spark3.1

R-kódtárak

Az R-kódtárak megegyeznek a Databricks Runtime 9.1 LTS R-kódtáraival .

Java- és Scala-kódtárak (Scala 2.12-fürt)

A Databricks Runtime 9.1 LTS Java- és Scala-kódtárai mellett a Databricks Runtime 9.1 LTS ML a következő JARs-eket tartalmazza:

CPU-fürtök

Csoportazonosító Összetevő azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-fürtök

Csoportazonosító Összetevő azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0