Megosztás a következőn keresztül:


Databricks Runtime 6.0 a Condával (nem támogatott)

Feljegyzés

Ez a kiadás már nem érhető el. Ha a Conda használatával szeretné kezelni a Python-kódtárakat és -környezeteket, használja a Databricks Runtime for Machine Tanulás támogatott verzióját.

A Databricks Runtime 6.0 és a Conda (bétaverzió) segítségével a Conda segítségével kezelheti a Python-kódtárakat és -környezeteket. Ez a futtatókörnyezet két gyökér Conda-környezetet kínál a fürt létrehozásakor:

  • A Databricks Standard környezet számos népszerű Python-csomag frissített verzióit tartalmazza. Ez a környezet a Databricks Runtime-on futó meglévő jegyzetfüzetek legördülő helyére szolgál. Ez az alapértelmezett Databricks Conda-alapú futtatókörnyezet.
  • A Databricks Minimal-környezet minimális számú csomagot tartalmaz, amelyek szükségesek a PySpark és a Databricks Python notebook funkcióihoz. Ez a környezet akkor ideális, ha testre szeretné szabni a futtatókörnyezetet különböző Python-csomagokkal.

Mindkettő támogatja a Databricks Library segédprogramot (dbutils.library) (örökölt).

Feljegyzés

A Databricks Runtime 6.0 És a Conda Scala, Java és R kódtárai megegyeznek a Databricks Runtime 6.0-s kódtáraival. További részletekért tekintse meg a Databricks Runtime 6.0 (nem támogatott) kibocsátási megjegyzéseit. További információ a Databricks Runtime Condával való használatáról: Conda.

Új funkciók

Lásd a Databricks Runtime 6.0 új funkcióit.

Fejlesztések

Lásd a Databricks Runtime 6.0 fejlesztéseit.

Hibajavítás

Kijavítottuk a Conda 9104-et (a Conda-lista sikertelen, ha a "RECORD" fájl ismétlődő bejegyzéseket tartalmaz).

Ismert problémák

  • Alapértelmezés szerint minden Python-jegyzetfüzet a saját elkülönített Conda-környezetében fut. Ez az izolált környezet a conda gyökérkörnyezetből van klónozva. Mivel ez a klón költséges művelet, bizonyos esetekben a következő problémák léphetnek fel:

    • Ha a fürtpéldány típusa nem rendelkezik helyi tárolóval, a fürt létrehozása meghiúsulhat a következőhöz hasonló hibával:

      Could not start Spark. This can happen when installing incompatible libraries or when initialization scripts failed.
      databricks_error_message: Spark failed to start: Timed out after ... seconds
      
    • Ha egyszerre több Python-jegyzetfüzetet csatol egy fürthöz (például ütemezett feladatok vagy jegyzetfüzet-munkafolyamatok váltják ki), előfordulhat, hogy egyes jegyzetfüzetek csatolása sikertelen.

    Ha a fenti problémák bármelyikét tapasztalja, és nem kell Python-jegyzetfüzeteket futtatnia izolált környezetekben (azaz a fürt nincs megosztva), letilthatja az elkülönített Python-környezetek létrehozását minden Python-jegyzetfüzethez a Spark-konfigurációban való beállítással spark.databricks.libraryIsolation.enabledfalse. A jelző beállítása szintén letiltja a jelölőt dbutils.library.

  • Ha frissíti a telepített Condát, előfordulhat, hogy a Conda új verziója nem tartalmazza a Conda 9104-es hibájának javítását (a Conda-lista sikertelen, ha a "RECORD" fájl ismétlődő bejegyzéseket tartalmaz). Ha frissíti a Condát, és hibákat tapasztal a Python-jegyzetfüzetek csatolásakor, vagy az illesztőprogram-naplókban vagy a jegyzetfüzetekben található hibávalTypeError: '<' not supported between instances of 'NoneType' and 'str', conda list használja a Conda azon verzióját, amely rendelkezik a javítással, vagy kerülje a Conda frissítését ebben a kiadásban.

Rendszerkörnyezet

A Databricks Runtime 6.0 és a Conda rendszerkörnyezete az alábbiak szerint különbözik a Databricks Runtime 6.0-tól:

A telepített Python-kódtárakban van néhány különbség.

Könyvtárak

Az alábbiakban a Databricks Runtime 6.0 és a Conda alapértelmezett gyökérkörnyezeteinek exportált environment.yml fájlja található.

Databricks Standard

name: databricks-standard
channels:
  - defaults
dependencies:
  - _libgcc_mutex=0.1=main
  - asn1crypto=0.24.0=py37_0
  - backcall=0.1.0=py37_0
  - blas=1.0=openblas
  - boto=2.49.0=py37_0
  - boto3=1.9.162=py_0
  - botocore=1.12.163=py_0
  - ca-certificates=2019.1.23=0
  - certifi=2019.3.9=py37_0
  - cffi=1.12.2=py37h2e261b9_1
  - chardet=3.0.4=py37_1003
  - cryptography=2.6.1=py37h1ba5d50_0
  - cython=0.29.6=py37he6710b0_0
  - decorator=4.4.0=py37_1
  - docutils=0.14=py37_0
  - idna=2.8=py37_0
  - ipython=7.4.0=py37h39e3cac_0
  - ipython_genutils=0.2.0=py37_0
  - jedi=0.13.3=py37_0
  - jmespath=0.9.4=py_0
  - krb5=1.16.1=h173b8e3_7
  - libedit=3.1.20181209=hc058e9b_0
  - libffi=3.2.1=hd88cf55_4
  - libgcc-ng=8.2.0=hdf63c60_1
  - libgfortran-ng=7.3.0=hdf63c60_0
  - libopenblas=0.3.6=h5a2b251_1
  - libpq=11.2=h20c2e04_0
  - libstdcxx-ng=8.2.0=hdf63c60_1
  - ncurses=6.1=he6710b0_1
  - nomkl=3.0=0
  - numpy=1.16.2=py37h99e49ec_0
  - numpy-base=1.16.2=py37h2f8d375_0
  - openssl=1.1.1b=h7b6447c_1
  - pandas=0.24.2=py37he6710b0_0
  - parso=0.3.4=py37_0
  - patsy=0.5.1=py37_0
  - pexpect=4.6.0=py37_0
  - pickleshare=0.7.5=py37_0
  - pip=19.0.3=py37_0
  - prompt_toolkit=2.0.9=py37_0
  - psycopg2=2.7.6.1=py37h1ba5d50_0
  - ptyprocess=0.6.0=py37_0
  - pycparser=2.19=py37_0
  - pygments=2.3.1=py37_0
  - pyopenssl=19.0.0=py37_0
  - pysocks=1.6.8=py37_0
  - python=3.7.3=h0371630_0
  - python-dateutil=2.8.0=py37_0
  - pytz=2018.9=py37_0
  - readline=7.0=h7b6447c_5
  - requests=2.21.0=py37_0
  - s3transfer=0.2.1=py37_0
  - scikit-learn=0.20.3=py37h22eb022_0
  - scipy=1.2.1=py37he2b7bc3_0
  - setuptools=40.8.0=py37_0
  - six=1.12.0=py37_0
  - sqlite=3.27.2=h7b6447c_0
  - statsmodels=0.9.0=py37h035aef0_0
  - tk=8.6.8=hbc83047_0
  - traitlets=4.3.2=py37_0
  - urllib3=1.24.1=py37_0
  - wcwidth=0.1.7=py37_0
  - wheel=0.33.1=py37_0
  - xz=5.2.4=h14c3975_4
  - zlib=1.2.11=h7b6447c_3
  - pip:
    - cycler==0.10.0
    - kiwisolver==1.1.0
    - matplotlib==3.0.3
    - pyarrow==0.13.0
    - pyparsing==2.4.2
    - seaborn==0.9.0
prefix: /databricks/conda/envs/databricks-standard

Minimális Databricks

name: databricks-minimal
channels:
  - defaults
dependencies:
  - _libgcc_mutex=0.1=main
  - backcall=0.1.0=py37_0
  - blas=1.0=openblas
  - ca-certificates=2019.1.23=0
  - certifi=2019.3.9=py37_0
  - decorator=4.4.0=py37_1
  - ipython=7.4.0=py37h39e3cac_0
  - ipython_genutils=0.2.0=py37_0
  - jedi=0.13.3=py37_0
  - libedit=3.1.20181209=hc058e9b_0
  - libffi=3.2.1=hd88cf55_4
  - libgcc-ng=8.2.0=hdf63c60_1
  - libgfortran-ng=7.3.0=hdf63c60_0
  - libopenblas=0.3.6=h5a2b251_1
  - libstdcxx-ng=8.2.0=hdf63c60_1
  - ncurses=6.1=he6710b0_1
  - nomkl=3.0=0
  - numpy=1.16.2=py37h99e49ec_0
  - numpy-base=1.16.2=py37h2f8d375_0
  - openssl=1.1.1b=h7b6447c_1
  - pandas=0.24.2=py37he6710b0_0
  - parso=0.3.4=py37_0
  - pexpect=4.6.0=py37_0
  - pickleshare=0.7.5=py37_0
  - pip=19.0.3=py37_0
  - prompt_toolkit=2.0.9=py37_0
  - ptyprocess=0.6.0=py37_0
  - pygments=2.3.1=py37_0
  - python=3.7.3=h0371630_0
  - python-dateutil=2.8.0=py37_0
  - pytz=2018.9=py37_0
  - readline=7.0=h7b6447c_5
  - setuptools=40.8.0=py37_0
  - six=1.12.0=py37_0
  - sqlite=3.27.2=h7b6447c_0
  - tk=8.6.8=hbc83047_0
  - traitlets=4.3.2=py37_0
  - wcwidth=0.1.7=py37_0
  - wheel=0.33.1=py37_0
  - xz=5.2.4=h14c3975_4
  - zlib=1.2.11=h7b6447c_3
  - pip:
    - pyarrow==0.13.0
prefix: /databricks/conda/envs/databricks-minimal