Databricks Runtime 9.0 gépi tanuláshoz (nem támogatott)

A Databricks 2021 augusztusában adta ki ezt a képet.

A Machine Learninghez készült Databricks Runtime 9.0 egy használatra kész környezetet biztosít a gépi tanuláshoz és az adatelemzéshez a Databricks Runtime 9.0 (nem támogatott) alapján. A Databricks Runtime ML számos népszerű gépi tanulási kódtárat tartalmaz, köztük a TensorFlow, a PyTorch és az XGBoost. Támogatja az elosztott mélytanulási betanítást a Horovod használatával.

További információ, beleértve a Databricks Runtime ML-fürt létrehozásának utasításait is, lásd: Databricks Runtime for Machine Learning.

Korrekció

A kibocsátási megjegyzések egy korábbi verziója azt állította, hogy a Fürt GPU-metrikáinak Gangliával való monitorozása le lett tiltva a Databricks Runtime 9.0 ML GPU-ban. Ez igaz volt a Databricks Runtime 9.0 ML bétaverziójára, de a problémát kijavítottuk a Databricks Runtime 9.0 ML GA-val. Az utasítás el lett távolítva.

Új funkciók és fejlesztések

A Databricks Runtime 9.0 ML a Databricks Runtime 9.0-ra épül. A Databricks Runtime 9.0 újdonságairól, beleértve az Apache Spark MLlib és a SparkR újdonságait, tekintse meg a Databricks Runtime 9.0 (nem támogatott) kibocsátási megjegyzéseit.

Databricks automatikus naplózás (nyilvános előzetes verzió)

A Databricks autologging mostantól elérhető a Machine Learninghez készült Databricks Runtime 9.0-hoz bizonyos régiókban. A Databricks autologging egy kód nélküli megoldás, amely automatikus kísérletkövetést biztosít az Azure Databricks gépi tanulási betanítási munkameneteihez. A Databricks automatikus naplózásával a modellparaméterek, metrikák, fájlok és életútadatok automatikusan rögzítve lesznek, amikor modelleket tanít be számos népszerű gépi tanulási kódtárból. A betanítási munkamenetek MLflow-nyomkövetési futtatásokként vannak rögzítve. A modellfájlokat is nyomon követjük, így egyszerűen naplózhatja őket az MLflow Model Registryben , és üzembe helyezheti őket valós idejű pontozás céljából az MLflow modellkiszolgálóval.

További információ a Databricks automatikus naplózásáról: Databricks autologging.

A Databricks szolgáltatástároló fejlesztései

A betanítási csoportok létrehozásakor a teljesítmény javult a forrásfunkció-táblák közötti illesztések számának minimalizálásával.

Az XGBoost és a PySpark integrációja mostantól támogatja az elosztott betanítási és GPU-fürtöket

Részletekért lásd: Az XGBoost használata az Azure Databricksben.

A Databricks Runtime ML Python-környezetének jelentős változásai

A Conda-környezetek és a %conda parancs el lesz távolítva. A Databricks Runtime 9.0 ML a és virtualenva rendszerrel pip készült. A Conda-alapú környezeteket a Databricks Container Services szolgáltatással használó egyéni rendszerképek továbbra is támogatottak lesznek, de nem rendelkeznek jegyzetfüzet-hatókörű kódtár-képességekkel. A Databricks virtualenv-alapú környezetek használatát javasolja a Databricks Container Services %pip és az összes jegyzetfüzet-hatókörű kódtár esetében.

A Databricks Runtime Python-környezet főbb változásairól a Databricks Runtime 9.0 (nem támogatott) című cikkben olvashat. A telepített Python-csomagok és azok verzióinak teljes listáját lásd: Python-kódtárak.

Python-csomagok frissítve

  • mlflow 1.18.0 -> 1.19.0
  • nltk 3.5 –> 3.6.1

Python-csomagok hozzáadva

  • próféta 1.0.1

Python-csomagok el lettek távolítva

  • MKL
  • azure-core
  • azure-storage-blob
  • msrest
  • docker
  • querystring-parser
  • intel-openmp

Elavulások és nem támogatott funkciók

  • A Databricks Runtime 9.0 ML-ben a HorovodRunner nem támogatja a beállítást np=0, ahol np a Horovod-feladathoz használandó párhuzamos folyamatok száma.
  • A Databricks Runtime 9.0 ML r-base 4.1.0-t tartalmaz az R grafikus motor 14-es verziójával. Ezt az RStudio Server 1.2.x-es verziója nem támogatja.
  • nvprof A a Databricks Runtime 9.0 ML GPU-ban lett eltávolítva.

Rendszerkörnyezet

A Databricks Runtime 9.0 ML rendszerkörnyezete eltér a Databricks Runtime 9.0-tól az alábbiak szerint:

Kódtárak

Az alábbi szakaszok a Databricks Runtime 9.0 ML-ben található kódtárakat sorolják fel, amelyek eltérnek a Databricks Runtime 9.0-ban szereplő kódtáraktól.

Ebben a szakaszban:

Felső szintű kódtárak

A Databricks Runtime 9.0 ML a következő legfelső szintű kódtárakat tartalmazza:

Python-kódtárak

A Databricks Runtime 9.0 ML a Virtualenv-t használja a Python-csomagkezeléshez, és számos népszerű ML-csomagot tartalmaz.

A következő szakaszokban megadott csomagok mellett a Databricks Runtime 9.0 ML a következő csomagokat is tartalmazza:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

Python-kódtárak CPU-fürtökön

Kódtár Verzió Kódtár Verzió Kódtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 visszahívás 0.2.0
bcrypt 3.2.0 Fehérítő 3.3.0 boto3 1.16.7
botocore 1.19.7 Torlódás 1.3.2 cachetools 4.2.2
minősítés 2020.12.5 cffi 1.14.5 karakterkészlet 4.0.0
Kattintson 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 konvertálás 2.3.2 Titkosítás 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Dekoratőr 5.0.6 defusedxml 0.7.1
Kapros 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0,23ubuntu1 belépési pontok 0.3 ephem 4.0.0.2
aspektusok áttekintése 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 Jövőben 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-hitelesítés 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 Ünnepek 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalák 1.8.1 koreai holdnaptár 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Makó 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 többmetódos 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
jegyzetfüzet 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Csomagolás 20.9
pandas 1.2.4 pandas-profilkészítés 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Párna 8.2.0 Pip 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Kérelmek 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Újrapróbálkozás 1.3.3
Rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 tengeri 0.11.1 Küldés2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 Hat 1.15.0 slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulátor 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 Fáklya 1.9.0+cpu fáklya 0.10.0+cpu
Tornádó 6.1 tqdm 4.59.0 traitlets 5.0.5
gépelési bővítmények 3.7.4.3 ujson 4.0.2 felügyelet nélküli frissítések 0.1
urllib3 1.25.11 virtualenv 20.4.1 Látomások 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Kerék 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

Python-kódtárak GPU-fürtökön

Kódtár Verzió Kódtár Verzió Kódtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 visszahívás 0.2.0
bcrypt 3.2.0 Fehérítő 3.3.0 boto3 1.16.7
botocore 1.19.7 Torlódás 1.3.2 cachetools 4.2.2
minősítés 2020.12.5 cffi 1.14.5 karakterkészlet 4.0.0
Kattintson 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 konvertálás 2.3.2 Titkosítás 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Dekoratőr 5.0.6 defusedxml 0.7.1
Kapros 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0,23ubuntu1 belépési pontok 0.3 ephem 4.0.0.2
aspektusok áttekintése 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 Jövőben 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-hitelesítés 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 Ünnepek 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalák 1.8.1 koreai-holdnaptár 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Makó 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 többmethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
jegyzetfüzet 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Csomagolás 20.9
pandas 1.2.4 pandas-profilkészítés 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Párna 8.2.0 Pip 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Kérelmek 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Újrapróbálkozás 1.3.3
Rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 tengeri 0.11.1 Küldés2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 Hat 1.15.0 slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulátor 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 Fáklya 1.9.0+cu111 fáklya 0.10.0+cu111
Tornádó 6.1 tqdm 4.59.0 traitlets 5.0.5
gépelési bővítmények 3.7.4.3 ujson 4.0.2 felügyelet nélküli frissítések 0.1
urllib3 1.25.11 virtualenv 20.4.1 Látomások 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Kerék 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

Python-modulokat tartalmazó Spark-csomagok

Spark-csomag Python-modul Verzió
gráfkeretek gráfkeretek 0.8.1-db3-spark3.1

R-kódtárak

Az R-kódtárak megegyeznek a Databricks Runtime 9.0 R-kódtáraival .

Java- és Scala-kódtárak (Scala 2.12-fürt)

A Databricks Runtime 9.0 Java- és Scala-kódtárai mellett a Databricks Runtime 9.0 ML a következő JAR-eket tartalmazza:

CPU-fürtök

Csoportazonosító Összetevő azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-fürtök

Csoportazonosító Összetevő azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0