Databricks Runtime for Machine Learning

A Databricks Runtime for Machine Learning (Databricks Runtime ML) automatizálja egy gépi tanulásra optimalizált fürt létrehozását. A Databricks Runtime ML-fürtök közé tartoznak a legnépszerűbb gépi tanulási kódtárak, például a TensorFlow, a PyTorch, a Keras és az XGBoost, valamint az elosztott betanításhoz, például a Horovodhoz szükséges kódtárak is. A Databricks Runtime ML használata felgyorsítja a fürtlétrehozást, és biztosítja, hogy a telepített kódtár verziói kompatibilisek legyenek.

Az Azure Databricks gépi tanuláshoz és mélytanuláshoz való használatáról a Databricks Machine Learning útmutatójában olvashat.

Az egyes Databricks Runtime ML-verziók tartalmával kapcsolatos információkért tekintse meg a kibocsátási megjegyzéseket.

A Databricks Runtime ML a Databricks Runtime-ra épül. A Databricks Runtime 7.3 LTS for Machine Learning például a Databricks Runtime 7.3 LTS-en alapul. Az alap Databricks Runtime-ban található kódtárak a Databricks Runtime kibocsátási megjegyzéseiben találhatók.

A Databricks Runtime for Machine Learning bemutatása

Ez az oktatóanyag a Databricks Runtime ML új felhasználóinak készült. A munka körülbelül 10 percet vesz igénybe, és teljes körű példát mutat be a táblázatos adatok betöltésére, a modell betanítására, az elosztott hiperparaméter-finomhangolásra és a modellkövetkeztetésre. Azt is bemutatja, hogyan használható az MLflow API és az MLflow Model Registry.

Databricks-oktatóanyag jegyzetfüzete

Jegyzetfüzet beszerzése

A Databricks Runtime ML-ben található kódtárak

A Databricks Runtime ML számos népszerű ML-kódtárat tartalmaz. A kódtárak minden kiadással frissülnek, hogy új funkciókat és javításokat tartalmazzanak.

Az Azure Databricks a támogatott kódtárak egy részét felső szintű kódtárakként jelölte ki. Ezekhez a kódtárakhoz az Azure Databricks gyorsabb frissítési ütemezést biztosít, és minden egyes futtatókörnyezeti kiadással frissíti a legújabb csomagkiadásokat (a függőségi ütközések kitiltásával). Az Azure Databricks fejlett támogatást, tesztelést és beágyazott optimalizálást is biztosít a legfelső szintű kódtárakhoz.

A legfelső szintű és egyéb rendelkezésre álló kódtárak teljes listájáért tekintse meg az alábbi cikkeket az egyes elérhető futtatókörnyezetekről:

A Databricks Runtime ML használata

Az előre telepített kódtárakon kívül a Databricks Runtime ML eltér a Databricks Runtime-tól a fürtkonfigurációban és a Python-csomagok kezelésében.

Fürt létrehozása a Databricks Runtime ML használatával

Fürt létrehozásakor válasszon ki egy Databricks Runtime ML-verziót a Databricks Futtatókörnyezet verziója legördülő listából. A PROCESSZOR- és GPU-kompatibilis ml-futtatókörnyezetek egyaránt elérhetők.

A Databricks Runtime ML kiválasztása

Ha GPU-kompatibilis ML-futtatókörnyezetet választ, a rendszer felkéri, hogy válasszon egy kompatibilis illesztőprogramtípust és feldolgozótípust. A nem kompatibilis példánytípusok szürkével jelennek meg a legördülő listákban. A GPU-kompatibilis példánytípusok a GPU-gyorsított címke alatt jelennek meg.

Fontos

  • A munkaterület azon tárai, amelyek automatikusan települnek az összes fürtbe , ütközhetnek a Databricks Runtime ML-ben található kódtárakkal. Mielőtt létrehozna egy fürtöt a Databricks Runtime ML-vel, törölje a jelet a Telepítés automatikusan az összes fürtön jelölőnégyzetből az ütköző kódtárak esetében. A Databricks Runtime ML egyes verzióiban található kódtárak listáját a kibocsátási megjegyzésekben találja.
  • A Unity Katalógusban a gépi tanulási munkafolyamatok adatainak eléréséhez egyetlen felhasználói fürtöt kell használnia. A felhasználóelkülönítési fürtök nem kompatibilisek a Databricks Runtime ML-vel.

Python-csomagok kezelése

A Databricks Runtime 9.0 ML-ben és újabb verziókban a virtualenv csomagkezelőt használják Python-csomagok telepítéséhez. Minden Python-csomag egyetlen környezetben van telepítve: /databricks/python3.

A Databricks Runtime 8.4 ML-ben és alatta a Conda csomagkezelőt használják Python-csomagok telepítéséhez. Minden Python-csomag egyetlen környezetben van telepítve: /databricks/python2 a Python 2-t használó fürtökre és /databricks/python3 a Python 3-at használó fürtökre. A Conda-környezetek közötti váltás (vagy aktiválás) nem támogatott.

A Python-kódtárak kezelésével kapcsolatos információkért lásd a Kódtárak című témakört.

Automatizált gépi tanulás támogatása

A Databricks Runtime ML olyan eszközöket tartalmaz, amelyekkel automatizálható a modellfejlesztési folyamat, és hatékonyan megtalálhatja a legjobb teljesítményt nyújtó modellt.

  • Az AutoML automatikusan létrehoz, hangol és kiértékel egy modellkészletet, és létrehoz egy Python-jegyzetfüzetet az egyes futtatások forráskódjával, így áttekintheti, reprodukálhatja és módosíthatja a kódot.
  • A felügyelt MLFlow felügyeli a teljes modell életciklusát, beleértve a kísérleti futtatások nyomon követését, a modellek üzembe helyezését és megosztását, valamint a központosított modellregisztrációs adatbázis karbantartását.
  • Az osztálysal kiegészített Hyperopt automatizálja és osztja el az SparkTrials ML-modell paraméterhangolását.

Korlátozások

A Databricks Runtime ML nem támogatott: