A gépi tanuláshoz készült Databricks-futtatási környezet

Ez a lap a Databricks Machine Learning-hez készült futtatókörnyezetét ismerteti, és útmutatást nyújt az azt használó klasszikus számítási erőforrás létrehozásához.

Mi a Databricks Runtime for Machine Learning?

A Databricks Runtime for Machine Learning (Databricks Runtime ML) automatizálja egy számítási erőforrás létrehozását előre elkészített gépi tanulással és mélytanulási infrastruktúrával, beleértve a leggyakoribb ML- és DL-kódtárakat.

A Databricks Runtime ML-ben található kódtárak

A Databricks Runtime ML számos népszerű ML-kódtárat tartalmaz. A kódtárak minden kiadással frissülnek, hogy új funkciókat és javításokat tartalmazzanak.

A Databricks a támogatott kódtárak egy részét felső szintű kódtárakként jelölte ki. Ezekhez a kódtárakhoz a Databricks gyorsabb frissítési ütemet biztosít, és minden futtatókörnyezeti kiadással frissít a legújabb csomagkiadásokra (tiltva a függőségi ütközéseket). A Databricks fejlett támogatást, tesztelést és beágyazott optimalizálást is biztosít a legfelső szintű kódtárakhoz. A felső szintű kódtárak csak nagyobb kiadásokkal lesznek hozzáadva vagy eltávolítva.

  • A legfelső szintű és egyéb rendelkezésre álló kódtárak teljes listáját a Databricks Runtime ML kibocsátási megjegyzéseiben találja.
  • A tárak frissítésének gyakoriságáról és a tárak elavult állapotáról a Databricks Runtime ML karbantartási szabályzatának című témakörben olvashat.

További kódtárakat is telepíthet, hogy egyéni környezetet hozzon létre a jegyzetfüzethez vagy a számítási erőforráshoz.

Számítási erőforrás létrehozása a Databricks Runtime for ML használatával

Ha olyan számítási erőforrást szeretne létrehozni, amely a Databricks Runtime for ML-t használja, jelölje be a Gépi tanulás jelölőnégyzetet a számítási felhasználói felületen. Ezzel automatikusan dedikált felhasználóként állítja be a hozzáférési módot dedikált fiókra. A számítási erőforrást manuálisan rendelhet hozzá egy másik felhasználóhoz vagy csoporthoz a létrehozási felület Speciális szakaszában.

GPU-alapú számítás esetén válasszon ki egy GPU-kompatibilis példánytípust a Feldolgozó típusa legördülő menüben. A támogatott GPU-típusok teljes listáját támogatott példánytípusokcímű témakörben találja.

Photon és Databricks Runtime ML

A Databricks Runtime 15.2 ML vagy újabb verzióját futtató számítási erőforrás létrehozásakor engedélyezheti a Photon használatát. A Photon javítja az alkalmazások teljesítményét a Spark SQL, a Spark DataFrames, a funkciófejlesztés, a GraphFrames és az xgboost4j használatával. A Spark RDD-ket, Pandas UDF-eket és nem JVM-nyelveket, például Pythont használó alkalmazások teljesítménye várhatóan nem javul. Így az olyan Python-csomagok, mint az XGBoost, a PyTorch és a TensorFlow, nem fognak javulást látni a Photon esetében.

A Spark RDD API-k és a Spark MLlib csak korlátozottan kompatibilisek a Photon szolgáltatással. Nagy adathalmazok Spark RDD vagy Spark MLlib használatával történő feldolgozásakor a Spark memóriaproblémái léphetnek fel. Lásd Spark-memóriaproblémák.

Számítási hozzáférési mód a Databricks Runtime ML-hez

A Databricks Runtime ML-t futtató számítási erőforrás unity katalógusában lévő adatok eléréséhez a hozzáférési módot dedikáltra kell állítania. A gépi tanulás jelölőnégyzet bejelölésekor a hozzáférési mód automatikusan be van állítva a számítási felhasználói felület létrehozásakor.

Ha egy számítási erőforrás dedikált hozzáférési móddal rendelkezik, az erőforrás hozzárendelhető egyetlen felhasználóhoz vagy csoporthoz. Ha egy csoporthoz van rendelve, a felhasználó engedélyei automatikusan le vannak osztva a csoport engedélyeivel, így a felhasználó biztonságosan megoszthatja az erőforrást a csoport többi tagjával.

Dedikált hozzáférési mód használata esetén a következő funkciók csak a Databricks Runtime 15.4 LTS ML-n és újabb verziókon érhetők el:

Modellek betanítása

Az alábbi források bemutatják, hogyan taníthat be gépi tanulást és AI-modelleket a Mozaik AI-n és a Databricks Runtime for Machine Learningen.

A Mozaik AI-modell betanítása leegyszerűsíti és egységesíti a hagyományos ML-modellek betanításának és üzembe helyezésének folyamatát az AutoML és az Alapmodell finomhangolási számítási feladataival.

automatizált gépi tanulás

Az AutoML leegyszerűsíti a gépi tanulás adathalmazokra való alkalmazását azáltal, hogy automatikusan megtalálja a legjobb algoritmust és hiperparaméter-konfigurációt. Az AutoML kód nélküli felhasználói felületet és Python API-t is kínál.

Alapmodell finomhangolása

Az Alapmodell finomhangolása (most a Mozaik AI-modell betanításának része) az Azure Databricksben lehetővé teszi a nagyméretű nyelvi modellek (LLM-ek) testreszabását saját adataival. Ez a folyamat magában foglalja egy már meglévő alapmodell betanításának finomhangolását, ami jelentősen csökkenti a modell alapszintű betanításához képest szükséges adatokat, időt és számítási erőforrásokat. A legfontosabb funkciók a következők:

  • Utasítás finomhangolása: A modell új feladatokhoz való igazítása strukturált parancssori adatok betanításával.
  • További előzetes betanítás: A modell továbbfejlesztése további szöveges adatokkal új ismeretek hozzáadásához vagy egy adott tartományra való összpontosításhoz.
  • Csevegés betanítása: Képezze ki modelljét csevegési naplók alapján a beszélgetési képességek javítása érdekében.

Nyílt forráskódú kódtár példák

Tekintse meg a gépi tanulásra vonatkozó példákat számos nyílt forráskód gépi tanulási kódtárból, beleértve az Optuna és a Hyperopt használatával végzett hiperparaméter-finomhangolási példákat is.

mélytanulás

Példák és ajánlott eljárások az elosztott mélytanulási képzéshez a mélytanulási modellek Azure Databricksen való fejlesztéséhez és finomhangolásához.

Ajánlók

Megtudhatja, hogyan taníthat be mélytanuláson alapuló javaslatmodelleket az Azure Databricksben. A hagyományos ajánlási modellekhez képest a mélytanulási modellek jobb minőségű eredményeket érhetnek el, és nagyobb mennyiségű adatra méretezhetők.