Databricks Runtime 10.2 ml-hez (nem támogatott)

A Databricks 2021 decemberében adta ki ezt a képet.

A Databricks Runtime 10.2 for Machine Tanulás a Databricks Runtime 10.2-n (nem támogatott) alapuló, használatra kész környezetet biztosít a gépi tanuláshoz és az adatelemzéshez. A Databricks Runtime ML számos népszerű gépi tanulási kódtárat tartalmaz, köztük a TensorFlow-t, a PyTorch-ot és az XGBoost-t. A Databricks Runtime ML tartalmazza az AutoML-t, amely a gépi tanulási folyamatok automatikus betanítására szolgáló eszköz. A Databricks Runtime ML támogatja az elosztott mélytanulási képzést a Horovod használatával.

További információkért, beleértve a Databricks Runtime ML-fürt létrehozásának utasításait, tekintse meg a Databricks migrálási és gépi Tanulás.

Új funkciók és fejlesztések

A Databricks Runtime 10.2 ML a Databricks Runtime 10.2-es verziójára épül. A Databricks Runtime 10.2 újdonságairól, beleértve az Apache Spark MLlib és a SparkR újdonságait, tekintse meg a Databricks Runtime 10.2 (nem támogatott) kiadási megjegyzéseit.

Databricks autologging (nyilvános előzetes verzió)

A Databricks autologging mostantól minden régióban nyilvános előzetes verzióban érhető el. A Databricks Autologging egy kód nélküli megoldás, amely automatikus kísérletkövetést biztosít az Azure Databricks gépi tanulási betanítási munkameneteihez. A Databricks autologging funkciójával a modellparaméterek, a metrikák, a fájlok és az életút adatai automatikusan rögzítésre kerülnek, amikor modelleket tanít be számos népszerű gépi tanulási kódtárból. A betanítási munkamenetek MLflow-nyomkövetési futtatásokként vannak rögzítve. A modellfájlok is nyomon követhetők, így egyszerűen naplózhatja őket az MLflow modellregisztrációs adatbázisában, és valós idejű pontozás céljából üzembe helyezheti őket az MLflow modellkiszolgálóval.

További információ a Databricks automatikus kereséséről: Databricks Autologging.

A Databricks AutoML fejlesztései

A Databricks AutoML-ben az alábbi fejlesztések történtek.

  • Az AutoML figyelmen kívül hagyja azokat az oszlopokat, amelyek csak egyetlen értékkel rendelkeznek.
  • Besorolási és regressziós problémák esetén az adathalmaz betanítási, érvényesítési és tesztelési csoportokra való felosztásához használt időoszlop mostantól sztring típusú lehet. Korábban csak az időbélyeg és az egész szám támogatott. Részletekért lásd: Adatok felosztása betanítási/érvényesítési/tesztelési csoportokra .

A Databricks szolgáltatástároló fejlesztései

A Databricks feature Store-ban az alábbi fejlesztések történtek.

Egyszerűsített FeatureStoreClient felület

A FeatureStoreClient felület egyszerűbb lett.

  • FeatureStoreClient.create_feature_table() elavult. Ehelyett használja a következőt FeatureStoreClient.create_table(): .
  • FeatureStoreClient.get_feature_table() elavult. Ehelyett használja a következőt FeatureStoreClient.get_table(): .
  • Minden argumentumot másnak FeatureStoreClient.publish_table()name kell átadni, és online_store kulcsszóargumentumként kell átadni.

Csak a kijelölt oszlopok közzététele online áruházakban

A Databricks szolgáltatástároló mostantól csak a kijelölt oszlopok online áruházban való közzétételét támogatja. További információt a kiválasztott szolgáltatások online áruházban való közzététele című témakörben talál.

A Databricks Runtime ML Python-környezetének főbb változásai

A Databricks Runtime 10.1 ML-ben elavult Apache Spark MLlib automatizált MLflow Tracking integrációja alapértelmezés szerint le van tiltva a Databricks Runtime 10.2 ML-ben. Ezt felváltotta az MLflow PySpark ML Autologging integrációja, amely alapértelmezés szerint engedélyezve van a Databricks autologging szolgáltatással. Az automatikus naplózás a rögzített MLlib automatikus MLflow-nyomkövetési adatain túl további információkat is rögzít, beleértve a legjobb modellhez társított paramétereket, metrikákat és összetevőket.

Python-csomagok frissítve

  • databricks-cli 0.14.3 => 0.16.2
  • keras 2.6.0 => 2.7.0
  • lightgbm 3.3.0 => 3.3.1
  • mlflow 1.21.0 => 1.22.0
  • diagram 5.3.0 => 5.3.1
  • shap 0.39.0 => 0.40.0
  • spacy 3.1.3 => 3.2.0
  • tensorboard 2.6.0 => 2.7.0
  • tensorflow 2.6.0 => 2.7.0
  • fáklya 1.9.1 => 1.10.0
  • torchvision 0.10.1 => 0.11.1
  • transzformátorok 4.11.3 => 4.12.3
  • xgboost 1.4.2 => 1.5.0

Rendszerkörnyezet

A Databricks Runtime 10.2 ML rendszerkörnyezete az alábbiak szerint különbözik a Databricks Runtime 10.2-től:

Kódtárak

Az alábbi szakaszok a Databricks Runtime 10.2 ML-ben található kódtárakat sorolják fel, amelyek eltérnek a Databricks Runtime 10.2-ben szereplő kódtáraktól.

Ebben a szakaszban:

Felső szintű kódtárak

A Databricks Runtime 10.2 ML a következő legfelső szintű kódtárakat tartalmazza:

Python-kódtárak

A Databricks Runtime 10.2 ML a Virtualenv-t használja a Python-csomagkezeléshez, és számos népszerű ML-csomagot tartalmaz.

A következő szakaszokban megadott csomagok mellett a Databricks Runtime 10.2 ML a következő csomagokat is tartalmazza:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.6
  • automl 1.5.0

Python-kódtárak CPU-fürtökön

Könyvtár Verzió Könyvtár Verzió Könyvtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
aszinkron generátor 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 Fehérítő 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Katalógus 2.0.6 minősítés 2020.12.5
cffi 1.14.5 karakterkészlet 4.0.0 kattintás 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konvertálás 2.3.2 Titkosítás 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 Dekoratőr 5.0.6
defusedxml 0.7.1 Kapros 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0,23ubuntu1 belépési pontok 0.3
ephem 4.1.1 aspektusok áttekintése 1.0.0 gyorsszöveg 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 2,0
fsspec 0.9.0 Jövőben 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-hitelesítés 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-konverter 2.2.2 Ünnepek 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 idna 2.10
ImageHash 4.2.1 kiegyensúlyozatlan tanulás 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.0 keras 2.7.0 Keras-Előfeldolgozás 1.1.2
kiwisolver 1.3.1 Koalák 1.8.2 koreai-holdnaptár 0.2.1
langcode-k 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 LunarCalendar 0.0.9 Makó 1.1.3
Markdown 3.3.3 Korrektúra Széf 2.0.1 matplotlib 3.4.2
missingno 0.5.0 mistune 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimethod 1.6 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 nltk 3.6.1
jegyzetfüzet 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Csomagolás 21,3
pandas 1.2.4 pandas-profilkészítés 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 pathy 0.6.0
Patsy 0.5.1 petastorm 0.11.3 pexpect 4.8.0
phik 0.12.0 pickleshare 0.7.5 Párna 8.2.0
Pip 21.0.1 ábrázolás 5.3.1 előre meg van nyitható 3.0.5
prometheus-client 0.10.1 prompt-toolkit 3.0.17 Próféta 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
python-engineio 4.3.0 python-socketio 5.4.1 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
Regex 2021.4.4 kérelmek 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 Rsa 4.7.2 s3transfer 0.3.7
sacremoses 0.0.46 scikit-learn 0.24.1 scipy 1.6.2
tengeri 0.11.1 Send2Trash 1.5.0 setuptools 52.0.0
setuptools-git 1,2 shap 0.40.0 simplejson 3.17.2
Hat 1.15.0 Szeletelő 0.0.7 smart-open 5.2.0
smmap 3.0.5 spacy 3.2.0 spacy-legacy 3.0.8
spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
táblázatos 0.8.7 tangled-up-in-unicode 0.1.0 Kitartás 6.2.0
tensorboard 2.7.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0
tensorflow-io-gcs-fájlrendszer 0.22.0 termcolor 1.1.0 terminado 0.9.4
testpath 0.4.4 thinc 8.0.12 threadpoolctl 2.1.0
tokenizers 0.10.3 Fáklya 1.10.0+cpu torchvision 0.11.1+cpu
Tornádó 6.1 tqdm 4.59.0 árulók 5.0.5
Transformers 4.12.3 Typer 0.3.2 gépelés-bővítmények 3.7.4.3
ujson 4.0.2 felügyelet nélküli frissítések 0,1 urllib3 1.25.11
virtualenv 20.4.1 Látomások 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Kerék 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.5.0 zipp 3.4.1

Python-kódtárak GPU-fürtökön

Könyvtár Verzió Könyvtár Verzió Könyvtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
aszinkron generátor 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 Fehérítő 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Katalógus 2.0.6 minősítés 2020.12.5
cffi 1.14.5 karakterkészlet 4.0.0 kattintás 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konvertálás 2.3.2 Titkosítás 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 Dekoratőr 5.0.6
defusedxml 0.7.1 Kapros 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0,23ubuntu1 belépési pontok 0.3
ephem 4.1.1 aspektusok áttekintése 1.0.0 gyorsszöveg 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 2,0
fsspec 0.9.0 Jövőben 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-hitelesítés 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-konverter 2.2.2 Ünnepek 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 idna 2.10
ImageHash 4.2.1 kiegyensúlyozatlan tanulás 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.0 keras 2.7.0 Keras-Előfeldolgozás 1.1.2
kiwisolver 1.3.1 Koalák 1.8.2 koreai-holdnaptár 0.2.1
langcode-k 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 LunarCalendar 0.0.9 Makó 1.1.3
Markdown 3.3.3 Korrektúra Széf 2.0.1 matplotlib 3.4.2
missingno 0.5.0 mistune 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimethod 1.6 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 nltk 3.6.1
jegyzetfüzet 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Csomagolás 21,3
pandas 1.2.4 pandas-profilkészítés 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 pathy 0.6.0
Patsy 0.5.1 petastorm 0.11.3 pexpect 4.8.0
phik 0.12.0 pickleshare 0.7.5 Párna 8.2.0
Pip 21.0.1 ábrázolás 5.3.1 előre meg van nyitható 3.0.5
prompt-toolkit 3.0.17 Próféta 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.8.1 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
kérelmek 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
Rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 tengeri 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1,2
shap 0.40.0 simplejson 3.17.2 Hat 1.15.0
Szeletelő 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.2.0 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 táblázatos 0.8.7
tangled-up-in-unicode 0.1.0 Kitartás 6.2.0 tensorboard 2.7.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0
tensorflow 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-fájlrendszer 0.22.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.12 threadpoolctl 2.1.0 tokenizers 0.10.3
Fáklya 1.10.0+cu111 torchvision 0.11.1+cu111 Tornádó 6.1
tqdm 4.59.0 árulók 5.0.5 Transformers 4.12.3
Typer 0.3.2 gépelés-bővítmények 3.7.4.3 ujson 4.0.2
felügyelet nélküli frissítések 0,1 urllib3 1.25.11 virtualenv 20.4.1
Látomások 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Kerék 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.0 zipp 3.4.1

Python-modulokat tartalmazó Spark-csomagok

Spark-csomag Python-modul Verzió
gráfkeretek gráfkeretek 0.8.2-db1-spark3.2

R-kódtárak

Az R-kódtárak megegyeznek a Databricks Runtime 10.2 R-kódtárával .

Java- és Scala-kódtárak (Scala 2.12-fürt)

A Databricks Runtime 10.2 Java- és Scala-kódtárai mellett a Databricks Runtime 10.2 ML a következő JAR-eket tartalmazza:

CPU-fürtök

Csoportazonosító Összetevő azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-fürtök

Csoportazonosító Összetevő azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0