Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Databricks publicó esta imagen y la declaró soporte a largo plazo (LTS) en septiembre de 2021.
Databricks Runtime 9.1 LTS for Machine Learning proporciona un entorno listo parato-go para el aprendizaje automático y la ciencia de datos basado en Databricks Runtime 9.1 LTS. Databricks Runtime ML contiene muchas bibliotecas de aprendizaje automático populares, como TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.
Nota:
LTS significa que esta versión tiene soporte técnico a largo plazo. Consulte el Ciclo de vida de la versión LTS de Databricks Runtime.
Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.
Sugerencia
Para ver las notas de las versiones de Databricks Runtime que han llegado al fin de soporte (EoS), consulte las Notas de lanzamiento de fin de soporte de Databricks Runtime. Las versiones de EoS Databricks Runtime se han retirado y es posible que no se actualicen.
Nuevas características y mejoras
AutoML (aprendizaje automático automatizado)
Las siguientes mejoras están disponibles en Databricks Runtime 9.1 LTS ML y versiones posteriores.
AutoML admite conjuntos de datos más grandes mediante muestreo
AutoML ahora muestrea conjuntos de datos que podrían superar las restricciones de memoria, lo que le permite ejecutarse en conjuntos de datos más grandes con menos riesgo de errores de memoria insuficiente. Para más información, consulte Muestreo de conjuntos de datos grandes.
AutoML preprocesa columnas en función del tipo semántico
AutoML detecta determinadas columnas que tienen un tipo semántico que difiere de su tipo de datos Spark o pandas. A continuación, AutoML convierte y aplica los pasos de preprocesamiento de datos en función del tipo semántico detectado. En concreto, AutoML realiza las siguientes conversiones:
- Las columnas de cadena y enteros que representan datos de fecha o marca de tiempo se convierten en un tipo de marca de tiempo.
- Las columnas de cadena que representan datos numéricos se convierten en un tipo numérico.
Mejoras en los blocs de notas generados por AutoML
Los pasos de preprocesamiento para las columnas de fecha y marca de tiempo ahora se incorporan en el databricks-automl-runtime
paquete, lo que simplifica los cuadernos generados por el entrenamiento de AutoML.
databricks-automl-runtime
se incluye en Databricks Runtime 9.1 LTS ML y versiones posteriores, y también está disponible en PyPI.
Almacén de características
Las siguientes mejoras están disponibles en Databricks Runtime 9.1 LTS ML y versiones posteriores.
- Al crear un TrainingSet, ahora puede configurarlo
label=None
para que admita aplicaciones de aprendizaje no supervisado. - Ahora puede especificar más de una entidad en un solo
FeatureLookup
archivo . - Ahora puede especificar una ruta personalizada para las tablas de características. Utilice el
path
parámetro encreate_feature_table()
. El valor predeterminado es la ubicación de la base de datos. - Nuevos tipos de datos de PySpark compatibles: ArrayType y ShortType.
MLflow
Las siguientes mejoras están disponibles a partir de la versión 1.20.2 de Mlflow, que se incluye en Databricks Runtime 9.1 LTS ML.
- El registro automático de scikit-learn ahora registra las métricas posteriores al entrenamiento cada vez que se llama a una API de evaluación de scikit-learn, como
sklearn.metrics.mean_squared_error
. - El registro automático para PySpark ML ahora registra las métricas posteriores al entrenamiento cada vez que se llama a una API de evaluación de modelos, como
Evaluator.evaluate()
. -
mlflow.*.log_model
ymlflow.*.save_model
ahora tienepip_requirements
argumentos yextra_pip_requirements
para que pueda especificar directamente los requisitos pip del modelo para registrar o guardar. -
mlflow.*.log_model
ymlflow.*.save_model
ahora infiere automáticamente los requisitos de pip del modelo para registrar o guardar en función del entorno de software actual. -
stdMetrics
Las entradas ahora se registran como métricas de entrenamiento durante el registro automático de PySpark CrossValidator. - El registro automático de PyTorch Lightning ahora admite la ejecución distribuida.
Registro automático de Databricks (Versión preliminar pública)
La versión preliminar pública de Databricks Autologging se ha expandido a nuevas regiones. El Registro automático de Databricks es una solución sin código que proporciona seguimiento automático de experimentos, para sesiones de entrenamiento de aprendizaje automático en Azure Databricks. Con el Registro automático de Databricks, los parámetros del modelo, las métricas, los archivos y la información del linaje se capturan automáticamente, al entrenar modelos a partir de una serie de bibliotecas populares de aprendizaje automático. Las sesiones de entrenamiento se registran como ejecuciones de seguimiento de MLflow. También se realiza un seguimiento de los archivos del modelo, para poder registrarlos fácilmente en el registro de modelos de MLflow e implementarlos para realizar una puntuación en tiempo real, con el Servicio de modelo de MLflow.
Para más información sobre el Registro automático de Databricks, consulte Registro automático de Databricks.
Cambios importantes en el entorno de Python de Databricks Runtime ML
Paquetes de Python actualizados
- AutoML 1.1.1 => 1.2.1
- feature_store 0,3,3 => 0,3,4.1
- días festivos 0.10.5.2 => 0.11.2
- KERAS 2.5.0 => 2.6.0
- mlflow 1.19.0 => 1.20.2
- petastorm 0.11.1 => 0.11.2
- 4.14.3 => 5.1.0
- spark-tensorflow-distributor 0.1.0 => 1.0.0
- Sparkdl 2.2.0_db1 => 2.2.0_db3
- Tensorboard 2.5.0 => 2.6.0
- tensorflow 2.5.0 => 2.6.0
Paquetes de Python agregados
- databricks-automl-runtime 0.1.0
Entorno del sistema
El entorno del sistema en Databricks Runtime 9.1 LTS ML difiere de Databricks Runtime 9.1 LTS de la siguiente manera:
-
DBUtils: Databricks Runtime ML no incluye la utilidad de biblioteca (dbutils.library) (heredada).
Use comandos
%pip
en su lugar. Consulte Bibliotecas específicas de Python para Notebook. - En el caso de los clústeres de GPU, Databricks Runtime ML incluye las siguientes bibliotecas de GPU de NVIDIA:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotecas
En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 9.1 LTS ML que difieren de las incluidas en Databricks Runtime 9.1 LTS.
En esta sección:
- Bibliotecas de nivel superior
- Bibliotecas de Python
- Bibliotecas de R
- Bibliotecas de Java y Scala (clúster de Scala 2.12)
Bibliotecas de nivel superior
Databricks Runtime 9.1 LTS ML incluye las siguientes bibliotecas de nivel superior:
- AutoML
- GraphFrames
- Horovod y HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector (conector para Spark y TensorFlow)
- TensorFlow
- TensorBoard
Bibliotecas de Python
Databricks Runtime 9.1 LTS ML usa Virtualenv para la administración de paquetes de Python e incluye muchos paquetes de ML populares.
Además de los paquetes especificados en las secciones siguientes, Databricks Runtime 9.1 LTS ML también incluye los siguientes paquetes:
- hyperopt 0.2.5.db2
- sparkdl 2.2.0_db3
- feature_store 0.3.4.1
- AutoML 1.2.1
Bibliotecas de Python en clústeres de CPU
Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | directorios de aplicaciones | 1.4.4 |
argon2-cffi | 20.1.0 | Ástor | 0.8.1 | astunparse | 1.6.3 |
generador asíncrono | 1.10 | atributos | 20.3.0 | Llamada trasera | 0.2.0 |
bcrypt | 3.2.0 | blanquear | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Embotellamiento | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
Estruendo | 5.0 | Haz clic | 7.1.2 | cloudpickle | 1.6.0 |
cmdstanpy | 0.9.68 | configparser | 5.0.1 | convertdate | 2.3.2 |
criptografía | 3.4.7 | ciclista | 0.10.0 | Cython | 0.29.23 |
databricks-automl-runtime | 0.1.0 | databricks-cli | 0.14.3 | dbus-python | 1.2.16 |
decorador | 5.0.6 | defusedxml | 0.7.1 | eneldo | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.2 | distro-info | 0.23ubuntu1 |
puntos de entrada | 0,3 | eméhem | 4.0.0.2 | visión general de las facetas | 1.0.0 |
bloqueo de archivos | 3.0.12 | Matraz | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | futuro | 0.18.2 | Gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | autenticación de Google | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | h5py | 3.1.0 | hijri-converter | 2.2.1 |
vacaciones | 0.11.2 | Horovod | 0.22.1 | htmlmin | 0.1.12 |
idna | 2.10 | Hash de imagen | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | Es peligroso | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
Cliente Jupyter | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | Koalas | 1.8.1 | calendario lunar coreano | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.37.0 | Calendario Lunar | 0.0.9 |
Mako | 1.1.3 | Descuento | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | Mal sintonizado | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.20.2 | Multimétodo | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2,5 | NLTK | 3.6.1 |
cuaderno | 6.3.0 | entumecida | 0.54.0 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | embalaje | 20.9 |
Pandas | 1.2.4 | pandas-profiling | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | Patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Almohada | 8.2.0 | pepita | 21.0.1 |
trazado | 5.1.0 | Cliente-Prometeo | 0.10.1 | prompt-toolkit | 3.0.17 |
profeta | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | Python-dateutil | 2.8.1 | editor de Python | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | solicitudes | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | RSA | 4.7.2 |
s3transfer | 0.3.7 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
biblioteca de visualización de datos de Python llamada seaborn | 0.11.1 | Send2Trash | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | Shap | 0.39.0 | simplejson | 3.17.2 |
Seis | 1.15.0 | rebanador | 0.0.7 | smmap | 3.0.5 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | ssh-import-id | 5.10 |
statsmodels (paquete de Python para análisis estadístico) | 0.12.2 | tabular | 0.8.7 | enredado-up-in-unicode | 0.1.0 |
tenacidad | 6.2.0 | Tablero tensorizado | 2.6.0 | servidor-de-datos-de-tensorboard | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.6.0 | Estimador de TensorFlow | 2.6.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | ruta de prueba | 0.4.4 |
threadpoolctl | 2.1.0 | antorcha | 1.9.0+cpu | antorcha | 0.10.0+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
extensiones de escritura | 3.7.4.3 | ujson | 4.0.2 | actualizaciones automáticas sin supervisión | 0,1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | Visiones | 0.7.1 |
wcwidth | 0.2.5 | codificaciones web | 0.5.1 | cliente de websocket | 0.57.0 |
Werkzeug | 1.0.1 | rueda | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.4.2 | zipp | 3.4.1 |
Bibliotecas de Python en clústeres de GPU
Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | directorios de aplicaciones | 1.4.4 |
argon2-cffi | 20.1.0 | Ástor | 0.8.1 | astunparse | 1.6.3 |
generador asíncrono | 1.10 | atributos | 20.3.0 | Llamada trasera | 0.2.0 |
bcrypt | 3.2.0 | blanquear | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Embotellamiento | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
Estruendo | 5.0 | Haz clic | 7.1.2 | cloudpickle | 1.6.0 |
cmdstanpy | 0.9.68 | configparser | 5.0.1 | convertdate | 2.3.2 |
criptografía | 3.4.7 | ciclista | 0.10.0 | Cython | 0.29.23 |
databricks-automl-runtime | 0.1.0 | databricks-cli | 0.14.3 | dbus-python | 1.2.16 |
decorador | 5.0.6 | defusedxml | 0.7.1 | eneldo | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.2 | distro-info | 0.23ubuntu1 |
puntos de entrada | 0,3 | eméhem | 4.0.0.2 | visión general de las facetas | 1.0.0 |
bloqueo de archivos | 3.0.12 | Matraz | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | futuro | 0.18.2 | Gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | autenticación de Google | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | h5py | 3.1.0 | hijri-converter | 2.2.1 |
vacaciones | 0.11.2 | Horovod | 0.22.1 | htmlmin | 0.1.12 |
idna | 2.10 | Hash de imagen | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | Es peligroso | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
Cliente Jupyter | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | Koalas | 1.8.1 | calendario lunar coreano | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.37.0 | Calendario Lunar | 0.0.9 |
Mako | 1.1.3 | Descuento | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | Mal sintonizado | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.20.2 | Multimétodo | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2,5 | NLTK | 3.6.1 |
cuaderno | 6.3.0 | entumecida | 0.54.0 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | embalaje | 20.9 |
Pandas | 1.2.4 | pandas-profiling | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | Patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Almohada | 8.2.0 | pepita | 21.0.1 |
trazado | 5.1.0 | prompt-toolkit | 3.0.17 | profeta | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.3.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
Python-dateutil | 2.8.1 | editor de Python | 1.0.4 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
regex | 2021.4.4 | solicitudes | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | RSA | 4.7.2 | s3transfer | 0.3.7 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | biblioteca de visualización de datos de Python llamada seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
Shap | 0.39.0 | simplejson | 3.17.2 | Seis | 1.15.0 |
rebanador | 0.0.7 | smmap | 3.0.5 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | ssh-import-id | 5.10 | statsmodels (paquete de Python para análisis estadístico) | 0.12.2 |
tabular | 0.8.7 | enredado-up-in-unicode | 0.1.0 | tenacidad | 6.2.0 |
Tablero tensorizado | 2.6.0 | servidor-de-datos-de-tensorboard | 0.6.1 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.6.0 | Estimador de TensorFlow | 2.6.0 | termcolor | 1.1.0 |
terminado | 0.9.4 | ruta de prueba | 0.4.4 | threadpoolctl | 2.1.0 |
antorcha | 1.9.0+cu111 | antorcha | 0.10.0+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | extensiones de escritura | 3.7.4.3 |
ujson | 4.0.2 | actualizaciones automáticas sin supervisión | 0,1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | Visiones | 0.7.1 | wcwidth | 0.2.5 |
codificaciones web | 0.5.1 | cliente de websocket | 0.57.0 | Werkzeug | 1.0.1 |
rueda | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.4.2 | zipp | 3.4.1 |
Paquetes de Spark que contienen módulos de Python
Paquete de Spark | Módulo de Python | Versión |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
Bibliotecas de R
Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 9.1 LTS.
Bibliotecas de Java y Scala (clúster de Scala 2.12)
Además de las bibliotecas de Java y Scala en Databricks Runtime 9.1 LTS, Databricks Runtime 9.1 LTS ML contiene los siguientes archivos JAR:
Clústeres de CPU
Identificador de grupo | Id. de artefacto | Versión |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.20.2 |
org.mlflow | mlflow-spark | 1.20.2 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clústeres de GPU
Identificador de grupo | Id. de artefacto | Versión |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.20.2 |
org.mlflow | mlflow-spark | 1.20.2 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |