Compartilhar via


Databricks Runtime 10.2 para ML (EoS)

Observação

O suporte para esta versão do Databricks Runtime foi encerrado. Para obter a data de fim do suporte, consulte o Histórico de fim do suporte. Para todas as versões compatíveis do Databricks Runtime, consulte Versões e compatibilidade de notas sobre a versão do Databricks Runtime.

O Databricks lançou essa versão em dezembro de 2021.

O Databricks Runtime 10.2 para Machine Learning fornece um ambiente pronto para uso em aprendizado de máquina e ciência de dados com base no Databricks Runtime 10.2 (EoS). O Databricks Runtime ML contém muitas bibliotecas de aprendizado de máquina populares, inclusive TensorFlow, PyTorch e XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinamento automático de pipelines de aprendizado de máquina. O Databricks Runtime ML também oferece suporte ao treinamento de aprendizado profundo distribuído com o uso do Horovod.

Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, confira IA e Machine Learning no Databricks.

Novos recursos e aprimoramentos

O Databricks Runtime 10.2 ML foi criado com base no Databricks Runtime 10.2. Para obter informações sobre as novidades do Databricks Runtime 10.2, inclusive o Apache Spark MLlib e o SparkR, consulte as notas de versão do Databricks Runtime 10.2 (EoS).

Databricks Autologging (Visualização Pública)

O Databricks Autologging está agora em Versão Prévia Pública em todas as regiões. O Databricks Autologging é uma solução sem código que fornece acompanhamento automático de experimentos para sessões de treinamento em aprendizado de máquina no Azure Databricks. Com o Databricks Autologging, parâmetros de modelos, métricas, arquivos e informações de linhagem são capturados automaticamente quando você treina modelos de várias bibliotecas de aprendizado de máquina populares. As sessões de treinamento são registradas como Execuções de Acompanhamento do MLflow. Os arquivos de modelo também são rastreados para que você possa registrá-los facilmente no Registro de Modelo do MLflow e implantá-los para pontuação em tempo real com o Serviço de Modelo do MLflow.

Para obter mais informações sobre o Databricks Autologging, consulte Databricks Autologging.

Aprimoramentos no Mosaic AutoML

Os seguintes aprimoramentos foram feitos no Mosaic AutoML.

  • O AutoML ignora as colunas que têm apenas um valor.
  • Para problemas de classificação e regressão, a coluna de tempo usada para dividir cronologicamente o conjunto de dados em conjuntos de treinamento, validação e teste agora pode ser do tipo cadeia de caracteres. Antes, apenas carimbo de data/hora e inteiro eram suportados. Confira Dividir dados em conjuntos de treinamento, validação e teste para obter detalhes.

Aprimoramentos no Databricks Feature Store

Foram feitos os seguintes aprimoramentos no Databricks Feature Store.

Interface FeatureStoreClient simplificada

A interface FeatureStoreClient foi simplificada.

  • FeatureStoreClient.create_feature_table() foi preterido. Em vez disso, use FeatureStoreClient.create_table().
  • FeatureStoreClient.get_feature_table() foi preterido. Em vez disso, use FeatureStoreClient.get_table().
  • Todos os argumentos para FeatureStoreClient.publish_table() diferente de name e de online_store devem ser passados como argumentos de palavra-chave.

Publicar somente as colunas selecionadas em repositórios online

O Databricks Feature Store agora oferece suporte apenas à publicação de colunas selecionadas em um repositório online. Para obter mais informações, consulte Publicar recursos selecionados em um repositório online.

Principais alterações no ambiente do Python para o Databricks Runtime ML

A Integração ao Acompanhamento do MLflow automatizado para Apache Spark MLlib, descontinuada no Databricks Runtime 10.1 ML, agora está desabilitada por padrão no Databricks Runtime 10.2 ML. Ela foi substituída pela integração com o PySpark ML Autologging da MLflow, habilitada por padrão com o Databricks Autologging. O registro em log automático grava informações adicionais, além do que o acompanhamento do MLflow Automatizado para MLlib captura, inclusive os parâmetros, métricas e artefatos associados ao melhor modelo.

Pacotes do Python atualizados

  • databricks-cli 0.14.3 => 0.16.2
  • keras 2.6.0 => 2.7.0
  • lightgbm 3.3.0 => 3.3.1
  • mlflow 1.21.0 => 1.22.0
  • plotly 5.3.0 => 5.3.1
  • shap 0.39.0 => 0.40.0
  • spacy 3.1.3 => 3.2.0
  • tensorboard 2.6.0 => 2.7.0
  • tensorflow 2.6.0 => 2.7.0
  • torch 1.9.1 => 1.10.0
  • torchvision 0.10.1 => 0.11.1
  • transformers 4.11.3 => 4.12.3
  • xgboost 1.4.2 => 1.5.0

Ambiente do sistema

O ambiente do sistema no Databricks Runtime 10.2 ML é diferente do Databricks Runtime 10.2 nestes aspectos:

Bibliotecas

As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 10.2 ML que diferem daquelas incluídas no Databricks Runtime 10.2.

Nesta seção:

Bibliotecas de camada superior

O Databricks Runtime 10.2 ML inclui as seguintes bibliotecasde camada superior:

Bibliotecas do Python

Databricks Runtime 10.2 ML usa o Virtualenv para gerenciamento de pacotes do Python e inclui muitos pacotes de ML bastante populares.

Além dos pacotes especificados nas seções a seguir, Databricks Runtime 10.2 ML também inclui os seguintes pacotes:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.6
  • automl 1.5.0

Bibliotecas do Python em clusters de CPU

Biblioteca Versão Biblioteca Versão Biblioteca Versão
absl-py 0.11.0 Antergos Linux 2015.10 (atualização cumulativa de ISO) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 clique 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 criptografia 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 decorator 5.0.6
defusedxml 0.7.1 dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 entrypoints 0.3
ephem 4.1.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 2,0
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 feriados 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.7.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 korean-lunar-calendar 0.2.1
langcodes 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 LunarCalendar 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 2.0.1 matplotlib 3.4.2
missingno 0.5.0 mistune 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimethod 1.6 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
notebook 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 empacotando 21.3
pandas 1.2.4 pandas-profiling 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 pathy 0.6.0
patsy 0.5.1 petastorm 0.11.3 pexpect 4.8.0
phik 0.12.0 pickleshare 0.7.5 Pillow 8.2.0
pip 21.0.1 plotly 5.3.1 preshed 3.0.5
prometheus-client 0.10.1 prompt-toolkit 3.0.17 prophet 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
python-engineio 4.3.0 python-socketio 5.4.1 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
regex 2021.4.4 solicitações 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 rsa 4.7.2 s3transfer 0.3.7
sacremoses 0.0.46 scikit-learn 0.24.1 scipy 1.6.2
seaborn 0.11.1 Send2Trash 1.5.0 setuptools 52.0.0
setuptools-git 1,2 shap 0.40.0 simplejson 3.17.2
six 1.15.0 slicer 0.0.7 smart-open 5.2.0
smmap 3.0.5 spacy 3.2.0 spacy-legacy 3.0.8
spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
tabulate 0.8.7 tangled-up-in-unicode 0.1.0 tenacity 6.2.0
tensorboard 2.7.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0
tensorflow-io-gcs-filesystem 0.22.0 termcolor 1.1.0 terminado 0.9.4
testpath 0.4.4 thinc 8.0.12 threadpoolctl 2.1.0
tokenizers 0.10.3 torch 1.10.0+cpu torchvision 0.11.1+cpu
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
transformers 4.12.3 typer 0.3.2 typing-extensions 3.7.4.3
ujson 4.0.2 unattended-upgrades 0,1 urllib3 1.25.11
virtualenv 20.4.1 visions 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.5.0 zipp 3.4.1

Bibliotecas do Python em clusters de GPU

Biblioteca Versão Biblioteca Versão Biblioteca Versão
absl-py 0.11.0 Antergos Linux 2015.10 (atualização cumulativa de ISO) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 clique 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 criptografia 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 decorator 5.0.6
defusedxml 0.7.1 dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 entrypoints 0.3
ephem 4.1.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 2,0
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 feriados 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.7.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 korean-lunar-calendar 0.2.1
langcodes 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 LunarCalendar 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 2.0.1 matplotlib 3.4.2
missingno 0.5.0 mistune 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimethod 1.6 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
notebook 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 empacotando 21.3
pandas 1.2.4 pandas-profiling 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 pathy 0.6.0
patsy 0.5.1 petastorm 0.11.3 pexpect 4.8.0
phik 0.12.0 pickleshare 0.7.5 Pillow 8.2.0
pip 21.0.1 plotly 5.3.1 preshed 3.0.5
prompt-toolkit 3.0.17 prophet 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.8.1 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
solicitações 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1,2
shap 0.40.0 simplejson 3.17.2 six 1.15.0
slicer 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.2.0 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tenacity 6.2.0 tensorboard 2.7.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0
tensorflow 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.22.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.12 threadpoolctl 2.1.0 tokenizers 0.10.3
torch 1.10.0+cu111 torchvision 0.11.1+cu111 tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 transformers 4.12.3
typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
unattended-upgrades 0,1 urllib3 1.25.11 virtualenv 20.4.1
visions 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.0 zipp 3.4.1

Pacotes do Spark que contêm módulos do Python

Pacote do Spark Módulo do Python Versão
graphframes graphframes 0.8.2-db1-spark3.2

Bibliotecas do R

As bibliotecas do R são idênticas às Bibliotecas do R existentes no Databricks Runtime 10.2.

Bibliotecas Java e Scala (cluster do Scala 2.12)

Além das bibliotecas Java e Scala no Databricks Runtime 10.2, o Databricks Runtime 10.2 ML contém os seguintes JARs:

Clusters de CPU

ID do Grupo Artifact ID Versão
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clusters de GPU

ID do Grupo Artifact ID Versão
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0