다음을 통해 공유


Databricks Runtime 5.3 ML(지원되지 않음)

Databricks는 2019년 4월에 이 이미지를 릴리스했습니다.

Databricks Runtime 5.3 ML은 Databricks Runtime 5.3(지원되지 않음)을 기반으로 기계 학습 및 데이터 과학을 위한 즉시 사용할 수 있는 환경을 제공합니다. ML용 Databricks Runtime에는 TensorFlow, PyTorch, Keras 및 XGBoost를 포함하여 널리 사용되는 많은 기계 학습 라이브러리가 포함되어 있습니다. 또한 Horovod를 사용하여 분산 딥 러닝 학습을 지원합니다.

Databricks 런타임 ML 클러스터를 만들기 위한 지침을 비롯한 자세한 내용은 Databricks의 AI 및 Machine Learning을 참조 하세요.

새로운 기능

Databricks Runtime 5.3 ML은 Databricks Runtime 5.3을 기반으로 빌드됩니다. Databricks Runtime 5.3의 새로운 기능과 관련된 자세한 내용은 Databricks Runtime 5.3(지원되지 않는) 릴리스 정보를 참조하세요. 라이브러리 업데이트 외에도 Databricks Runtime 5.3 ML에는 다음과 같은 새로운 기능이 도입되었습니다.

  • MLflow + Apache Spark MLlib 통합: Databricks Runtime 5.3 ML은 PySpark 튜닝 알고리즘 CrossValidatorTrainValidationSplit를 사용하여 모델에 맞는 MLflow 실행의 자동 로깅을 지원합니다.

    Important

    이 기능은 현재 프라이빗 미리 보기로 제공됩니다. 활성화하는 방법에 대해 알아보려면 Azure Databricks 영업 담당자에게 문의하세요.

  • 다음 라이브러리를 최신 버전으로 업그레이드합니다.

    • 0.8.0에서 0.12.1까지의 PyArrow: BinaryType은 화살표 기반 변환에서 지원되며 PandasUDF에서 사용할 수 있습니다.
    • Horovod는 0.15.2에서 0.16.0까지입니다.
    • TensorboardX는 1.4에서 1.6까지입니다.

Databricks ML 모델 내보내기 API는 더 이상 사용되지 않습니다. Azure Databricks는 MLlib 모델 형식의 광범위한 범위를 제공하는 MLeap을 대신 사용하는 것이 좋습니다. MLeap ML 모델 내보내기에서 자세히 알아보세요.

참고 항목

또한 Databricks Runtime 5.3에는 각 작업자에서 공유 스토리지 위치 file:/dbfs/ml로 데이터 로드, 모델 검사점 지정 및 로깅에 최적화된 새로운 FUSE 탑재가 포함되어 있어 딥 러닝 워크로드에 대한 고성능 I/O를 제공합니다. 기계 학습 및 딥 러닝을 위한 데이터 로드를 참조하세요.

유지 관리 업데이트

Databricks Runtime 5.4 ML 유지 관리 업데이트를 참조하세요.

시스템 환경

Databricks Runtime 5.3 ML의 시스템 환경은 다음과 같이 Databricks Runtime 5.3과 다릅니다.

  • Python: Python 2 클러스터의 경우 2.7.15, Python 3 클러스터의 경우 3.6.5.
  • DBUtils: Databricks Runtime 5.3 ML에는 라이브러리 유틸리티(dbutils.library)(레거시)가 없습니다.
  • GPU 클러스터의 경우 다음 NVIDIA GPU 라이브러리를 사용합니다.
    • Tesla 드라이버 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

라이브러리

다음 섹션에서는 Databricks Runtime 5.3에 포함된 라이브러리와 다른 Databricks Runtime 5.3 ML 라이브러리가 나열되어 있습니다.

최상위 계층 라이브러리

Databricks Runtime 5.3 ML에는 다음과 같은 최상위 계층 라이브러리가 포함되어 있습니다.

Python 라이브러리

Databricks Runtime 5.3 ML은 Python 패키지 관리에 Conda를 사용합니다. 결과적으로 Databricks Runtime과 비교하여 미리 설치된 Python 라이브러리에는 큰 차이점이 있습니다. 다음은 Conda 패키지 관리자를 사용하여 설치된 제공되는 Python 패키지 및 버전의 전체 목록입니다.

라이브러리 버전 라이브러리 버전 라이브러리 버전
absl-py 0.7.0 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
암호화 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 미래 3.2.0
gast 0.2.2 grpcio 1.12.1 h5py 2.8.0
horovod 0.16.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psutil 5.6.0
psycopg2 2.7.5 ptyprocess 0.5.2 pyarrow 0.12.1
pyasn1 0.4.5 pycparser 2.18 Pygments 2.2.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 3.12 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
six 1.11.0 statsmodels 0.9.0 subprocess32 3.5.3
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 traceback2 1.4.0
traitlets 4.3.2 unittest2 1.1.0 urllib3 1.22
virtualenv 16.0.0 wcwidth 0.1.7 webencodings 0.5.1
Werkzeug 0.14.1 wheel 0.31.1 wrapt 1.10.11
wsgiref 0.1.2

또한 다음 Spark 패키지에는 Python 모듈이 포함됩니다.

Spark 패키지 Python 모듈 버전
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R 라이브러리

R 라이브러리는 Databricks Runtime 5.3의 R 라이브러리와 동일합니다.

Java 및 Scala 라이브러리(Scala 2.11 클러스터)

Databricks Runtime 5.3의 Java 및 Scala 라이브러리 외에도 Databricks Runtime 5.3 ML에는 다음 JAR이 포함되어 있습니다.

그룹 ID 아티팩트 ID 버전
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11