다음을 통해 공유


ML용 Databricks Runtime 10.1(EoS)

참고 항목

이 Databricks Runtime 버전에 대한 지원이 종료되었습니다. 지원 종료 날짜는 지원 종료 기록을 참조하세요. 지원되는 모든 Databricks Runtime 버전은 Databricks Runtime 릴리스 정보 버전 및 호환성을 참조하세요.

Machine Learning용 Databricks Runtime 10.1은 Databricks Runtime 10.1(EoS)을 기반으로 즉시 사용 가능한 기계 학습 및 데이터 과학 환경을 제공합니다. Databricks Runtime ML에는 TensorFlow, PyTorch 및 XGBoost를 포함하여 널리 사용되는 많은 기계 학습 라이브러리가 포함되어 있습니다. 또한 Horovod를 사용하여 분산 딥 러닝 학습을 지원합니다.

Databricks Runtime ML 클러스터 만들기 지침을 포함한 자세한 내용은 Databricks에서의 AI 및 기계 학습을 참조하세요.

새로운 기능 및 향상 기능

Databricks Runtime 10.1 ML은 Databricks Runtime 10.1을 기반으로 빌드됩니다. Apache Spark MLlib 및 SparkR을 포함하여 Databricks Runtime 10.1의 새로운 기능에 대한 자세한 내용은 Databricks Runtime 10.1(EoS) 릴리스 정보를 참조하세요.

Databricks AutoML 개선 사항

Databricks Runtime 10.1에서 Databricks AutoML에는 향상된 의미 체계 형식 검색, 학습 중 잠재적인 데이터 문제에 대한 새로운 경고, 과잉 맞춤 모델을 방지하는 새로운 기능, 입력 데이터 세트를 시간순으로 학습하고 유효성 검사하고 테스트 집합으로 분할하는 기능이 포함됩니다.

추가 의미 체계 형식 검색

AutoML은 이제 추가 의미 체계 형식 검색을 지원합니다.

  • 범주 레이블이 포함된 숫자 열은 범주 유형으로 처리됩니다.
  • 영어 텍스트를 포함하는 문자열 열은 텍스트 기능으로 처리됩니다.

이제 주석을 추가하여 열 데이터 형식을 지정할 수도 있습니다. 자세한 내용은 의미 체계 형식 검색을 참조하세요.

잠재적인 데이터 문제에 대한 학습 중 경고

AutoML은 이제 데이터세트의 잠재적인 문제를 감지하고 경고를 생성합니다. 예제 경고에는 지원되지 않는 열 형식과 높은 카디널리티 열이 포함됩니다. 이러한 알림은 실험 페이지의 새로운 알림 탭에 표시됩니다. 경고에 대한 추가 정보는 데이터 탐색 Notebook에 포함되어 있습니다. 자세한 내용은 실험 실행 및 결과 모니터링을 참조하세요.

모델 과잉 맞춤 감소

두 가지 새로운 기능은 AutoML을 사용할 때 모델에 과잉 맞춤할 가능성을 줄입니다.

  • 이제 AutoML은 유효성 검사 및 학습 메트릭에 대한 추가적인 테스트 메트릭을 보고합니다.
  • 이제 AutoML은 조기 중지를 사용합니다. 유효성 검사 메트릭이 더 이상 개선되지 않는 경우 모델 학습 및 튜닝을 중지합니다.

데이터 세트를 시간순으로 학습/유효성 검사/테스트 집합으로 분할

분류 및 회귀 문제의 경우 데이터 세트를 시간순으로 학습하고 유효성을 검사하고 테스트 집합으로 분할할 수 있습니다. 자세한 내용은 학습, 유효성 검사, 테스트 집합으로 데이터 분할을 참조하세요.

Databricks 기능 저장소의 개선 사항

이제 Databricks 기능 저장소는 이제 BinaryType, DecimalTypeMapType 기능 테이블에 대한 추가 데이터 형식을 지원합니다.

MLflow

다음 개선 사항은 Databricks Runtime 10.1 ML에 포함된 Mlflow 버전 1.21.0부터 사용할 수 있습니다.

  • [모델] fastai v2(2.4.1 이상)를 지원하도록 fastai 모델 버전을 업그레이드합니다.
  • [모델] Prophet 시계열 모델에 대한 mlflow.prophet 모델 특징을 소개합니다.
  • [점수 매기기] 날짜와 유사한 문자열을 datetime 개체로 잘못 캐스팅하는 스키마 적용 오류를 수정합니다.

Hyperopt

SparkTrials은 이제 fmin에 대한 early_stopping_fn 매개 변수를 지원합니다. 초기 중지 함수를 사용하여 최대 평가 수에 도달하기 전에 Hyperopt에서 하이퍼 매개 변수 튜닝을 중지해야 하는 조건을 지정할 수 있습니다. 예를 들어 목표 함수가 더 이상 감소하지 않는 경우 이 매개 변수를 사용하여 튜닝을 종료할 수 있습니다. 자세한 내용은 fmin()를 참조하세요.

Databricks Runtime ML Python 환경의 주요 변경 내용

업그레이드된 Python 패키지

  • automl 1.3.1 => 1.4.1
  • feature_store 0.3.4 => 0.3.5
  • holidays 0.11.2 => 0.11.3.1
  • horovod 0.22.1 => 0.23.0
  • hyperopt 0.2.5.db2 => 0.2.5.db4
  • imbalanced-learn 0.8.0 => 0.8.1
  • lightgbm 3.1.1 => 3.3.0
  • mlflow 1.20.2 => 1.21.0
  • petastorm 0.11.2 => 0.11.3
  • plotly 5.1.0 => 5.3.0
  • pytorch 1.9.0 => 1.9.1
  • spacy 3.1.2 => 3.1.3
  • sparkdl 2.2.0_db3 => 2.2.0_db4
  • torchvision 0.10.0 => 0.10.1
  • transformers 4.9.2 => 4.11.3

추가된 Python 패키지

  • fasttext => 0.9.2
  • tensorboard-plugin-profile => 2.5.0

사용 중단

MLlib 자동화 MLflow 추적은 Databricks Runtime 10.1 ML 이상을 실행하는 클러스터에서 더 이상 사용되지 않습니다. 대신 mlflow.pyspark.ml.autolog()을 호출하여 MLflow PySpark ML 자동 로깅을 사용합니다. 자동 로깅은 기본적으로 Databricks 자동 로깅을 통해 사용하도록 설정됩니다.

시스템 환경

Databricks Runtime 10.1 ML의 시스템 환경은 다음과 같은 면에서 Databricks Runtime 10.1과 다릅니다.

라이브러리

다음 섹션에서는 Databricks Runtime 10.1에 포함된 라이브러리와 다른 Databricks Runtime 10.1 ML 라이브러리를 나열합니다.

이 섹션의 내용:

최상위 계층 라이브러리

Databricks Runtime 10.1 ML에는 다음과 같은 최상위 계층 라이브러리가 포함되어 있습니다.

Python 라이브러리

Databricks Runtime 10.1 ML은 Python 패키지 관리에 Virtualenv를 사용하며 많은 자주 사용되는 ML 패키지를 포함합니다.

다음 섹션에 지정된 패키지 외에도 Databricks Runtime 10.1 ML에는 다음 패키지도 포함됩니다.

  • hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • feature_store 0.3.5
  • automl 1.4.0

참고 항목

Databricks Runtime 10.1 ML에는 비호환성 문제로 인해 버전 1.0 대신 scikit-learn 버전 0.24가 포함되어 있습니다. scikit-learn 패키지는 Databricks Runtime 10.1 ML의 다른 많은 패키지와 상호 작용합니다.

scikit-learn 버전 1.0으로 업그레이드할 수 있지만 Databricks는 해당 버전을 지원하지 않습니다.

업그레이드하려면 Notebook 범위 라이브러리를 사용합니다. Notebook에서 %pip install --upgrade "scikit-learn>=1.0,<1.1"을 실행합니다.

대안은 이 클러스터 초기화 스크립트를 사용하는 것입니다.

#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

CPU 클러스터의 Python 라이브러리

라이브러리 버전 라이브러리 버전 라이브러리 버전
absl-py 0.11.0 Antergos Linux 2015.10(ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bleach 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
catalogue 2.0.6 certifi 2020.12.5 cffi 1.14.5
chardet 4.0.0 clang 5.0 에서 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 암호화 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 decorator 5.0.6
defusedxml 0.7.1 dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 entrypoints 0.3
ephem 4.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 휴일 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 Keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 korean-lunar-calendar 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 Notebook 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
패키징 20.9 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.3.0
preshed 3.0.5 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.8.0
pycparser 2.20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
python-editor 1.0.4 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
requests 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.39.0 simplejson 3.17.2 six 1.15.0
slicer 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.1.3 spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulate 0.8.7 tangled-up-in-unicode 0.1.0
tenacity 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0
tensorflow-estimator 2.6.0 termcolor 1.1.0 terminado 0.9.4
testpath 0.4.4 thinc 8.0.9 threadpoolctl 2.1.0
tokenizers 0.10.3 torch 1.9.1+cpu torchvision 0.10.1+cpu
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
transformers 4.11.3 typer 0.3.2 typing-extensions 3.7.4.3
ujson 4.0.2 unattended-upgrades 0.1 urllib3 1.25.11
virtualenv 20.4.1 visions 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 zipp 3.4.1

GPU 클러스터의 Python 라이브러리

라이브러리 버전 라이브러리 버전 라이브러리 버전
absl-py 0.11.0 Antergos Linux 2015.10(ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bleach 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
catalogue 2.0.6 certifi 2020.12.5 cffi 1.14.5
chardet 4.0.0 clang 5.0 에서 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 암호화 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 decorator 5.0.6
defusedxml 0.7.1 dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 entrypoints 0.3
ephem 4.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 future 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 휴일 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 Keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 korean-lunar-calendar 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 Notebook 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
패키징 20.9 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.3.0
preshed 3.0.5 prompt-toolkit 3.0.17 prophet 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 six 1.15.0 slicer 0.0.7
smart-open 5.2.0 smmap 3.0.5 spacy 3.1.3
spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
tabulate 0.8.7 tangled-up-in-unicode 0.1.0 tenacity 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.9 threadpoolctl 2.1.0 tokenizers 0.10.3
torch 1.9.1+cu111 torchvision 0.10.1+cu111 tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 transformers 4.11.3
typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
unattended-upgrades 0.1 urllib3 1.25.11 virtualenv 20.4.1
visions 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 zipp 3.4.1

Python 모듈이 포함된 Spark 패키지

Spark 패키지 Python 모듈 버전
graphframes graphframes 0.8.2-db1-spark3.2

R 라이브러리

R 라이브러리는 Databricks Runtime 10.1의 R 라이브러리와 동일합니다.

Java 및 Scala 라이브러리(Scala 2.12 클러스터)

Databricks Runtime 10.1의 Java 및 Scala 라이브러리 외에도 Databricks Runtime 10.1 ML에는 다음 JAR이 포함되어 있습니다.

CPU 클러스터

그룹 ID 아티팩트 ID 버전
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU 클러스터

그룹 ID 아티팩트 ID 버전
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1-spark3.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.21.0
org.mlflow mlflow-spark 1.21.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0