Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Ez a lap a Databricks Machine Learning-hez készült futtatókörnyezetét ismerteti, és útmutatást nyújt az azt használó klasszikus számítási erőforrás létrehozásához.
Mi a Databricks Runtime for Machine Learning?
A Databricks Runtime for Machine Learning (Databricks Runtime ML) automatizálja egy számítási erőforrás létrehozását előre elkészített gépi tanulással és mélytanulási infrastruktúrával, beleértve a leggyakoribb ML- és DL-kódtárakat.
A Databricks Runtime ML-ben található kódtárak
A Databricks Runtime ML számos népszerű ML-kódtárat tartalmaz. A kódtárak minden kiadással frissülnek, hogy új funkciókat és javításokat tartalmazzanak.
A Databricks a támogatott kódtárak egy részét felső szintű kódtárakként jelölte ki. Ezekhez a kódtárakhoz a Databricks gyorsabb frissítési ütemet biztosít, és minden futtatókörnyezeti kiadással frissít a legújabb csomagkiadásokra (tiltva a függőségi ütközéseket). A Databricks fejlett támogatást, tesztelést és beágyazott optimalizálást is biztosít a legfelső szintű kódtárakhoz. A felső szintű kódtárak csak nagyobb kiadásokkal lesznek hozzáadva vagy eltávolítva.
- A legfelső szintű és egyéb rendelkezésre álló kódtárak teljes listáját a Databricks Runtime ML
kibocsátási megjegyzéseiben találja. - A tárak frissítésének gyakoriságáról és a tárak elavult állapotáról a Databricks Runtime ML karbantartási szabályzatának című témakörben olvashat.
További kódtárakat is telepíthet, hogy egyéni környezetet hozzon létre a jegyzetfüzethez vagy a számítási erőforráshoz.
- Ha egy számítási erőforráson futó összes jegyzetfüzet számára elérhetővé szeretne tenni egy tárat, hozzon létre egy számítási hatókörű tárat. Init-szkripttel kódtárakat is telepíthet a számítás létrehozása során.
- Ha olyan kódtárat szeretne telepíteni, amely csak egy adott jegyzetfüzet-munkamenethez érhető el, használjon jegyzetfüzet-hatókörű Python-kódtárakat.
Számítási erőforrás létrehozása a Databricks Runtime for ML használatával
Ha olyan számítási erőforrást szeretne létrehozni, amely a Databricks Runtime for ML-t használja, jelölje be a Gépi tanulás jelölőnégyzetet a számítási felhasználói felületen. Ezzel automatikusan dedikált felhasználóként állítja be a hozzáférési módot dedikált fiókra. A számítási erőforrást manuálisan rendelhet hozzá egy másik felhasználóhoz vagy csoporthoz a létrehozási felület Speciális szakaszában.
GPU-alapú számítás esetén válasszon ki egy GPU-kompatibilis példánytípust a Feldolgozó típusa legördülő menüben. A támogatott GPU-típusok teljes listáját támogatott példánytípusokcímű témakörben találja.
Photon és Databricks Runtime ML
A Databricks Runtime 15.2 ML vagy újabb verzióját futtató számítási erőforrás létrehozásakor engedélyezheti a Photon használatát. A Photon javítja az alkalmazások teljesítményét a Spark SQL, a Spark DataFrames, a funkciófejlesztés, a GraphFrames és az xgboost4j használatával. A Spark RDD-ket, Pandas UDF-eket és nem JVM-nyelveket, például Pythont használó alkalmazások teljesítménye várhatóan nem javul. Így az olyan Python-csomagok, mint az XGBoost, a PyTorch és a TensorFlow, nem fognak javulást látni a Photon esetében.
A Spark RDD API-k és a Spark MLlib csak korlátozottan kompatibilisek a Photon szolgáltatással. Nagy adathalmazok Spark RDD vagy Spark MLlib használatával történő feldolgozásakor a Spark memóriaproblémái léphetnek fel. Lásd Spark-memóriaproblémák.
Számítási hozzáférési mód a Databricks Runtime ML-hez
A Databricks Runtime ML-t futtató számítási erőforrás unity katalógusában lévő adatok eléréséhez a hozzáférési módot dedikáltra kell állítania. A gépi tanulás jelölőnégyzet bejelölésekor a hozzáférési mód automatikusan be van állítva a számítási felhasználói felület létrehozásakor.
Ha egy számítási erőforrás dedikált hozzáférési móddal rendelkezik, az erőforrás hozzárendelhető egyetlen felhasználóhoz vagy csoporthoz. Ha egy csoporthoz van rendelve, a felhasználó engedélyei automatikusan le vannak osztva a csoport engedélyeivel, így a felhasználó biztonságosan megoszthatja az erőforrást a csoport többi tagjával.
Dedikált hozzáférési mód használata esetén a következő funkciók csak a Databricks Runtime 15.4 LTS ML-n és újabb verziókon érhetők el:
- A részletes hozzáférés-vezérlés.
- A Lakeflow Spark Deklaratív folyamatokkal létrehozott táblák lekérdezése, beleértve a streamelési táblákat és a materializált nézeteket.
Modellek betanítása
Az alábbi források bemutatják, hogyan taníthat be gépi tanulást és AI-modelleket a Mozaik AI-n és a Databricks Runtime for Machine Learningen.
A Mozaik AI-modell betanítása leegyszerűsíti és egységesíti a hagyományos ML-modellek betanításának és üzembe helyezésének folyamatát az AutoML és az Alapmodell finomhangolási számítási feladataival.
automatizált gépi tanulás
Az AutoML leegyszerűsíti a gépi tanulás adathalmazokra való alkalmazását azáltal, hogy automatikusan megtalálja a legjobb algoritmust és hiperparaméter-konfigurációt. Az AutoML kód nélküli felhasználói felületet és Python API-t is kínál.
Alapmodell finomhangolása
Az Alapmodell finomhangolása (most a Mozaik AI-modell betanításának része) az Azure Databricksben lehetővé teszi a nagyméretű nyelvi modellek (LLM-ek) testreszabását saját adataival. Ez a folyamat magában foglalja egy már meglévő alapmodell betanításának finomhangolását, ami jelentősen csökkenti a modell alapszintű betanításához képest szükséges adatokat, időt és számítási erőforrásokat. A legfontosabb funkciók a következők:
- Utasítás finomhangolása: A modell új feladatokhoz való igazítása strukturált parancssori adatok betanításával.
- További előzetes betanítás: A modell továbbfejlesztése további szöveges adatokkal új ismeretek hozzáadásához vagy egy adott tartományra való összpontosításhoz.
- Csevegés betanítása: Képezze ki modelljét csevegési naplók alapján a beszélgetési képességek javítása érdekében.
Nyílt forráskódú kódtár példák
Tekintse meg a gépi tanulásra vonatkozó példákat számos nyílt forráskód gépi tanulási kódtárból, beleértve az Optuna és a Hyperopt használatával végzett hiperparaméter-finomhangolási példákat is.
mélytanulás
Példák és ajánlott eljárások az elosztott mélytanulási képzéshez a mélytanulási modellek Azure Databricksen való fejlesztéséhez és finomhangolásához.
Ajánlók
Megtudhatja, hogyan taníthat be mélytanuláson alapuló javaslatmodelleket az Azure Databricksben. A hagyományos ajánlási modellekhez képest a mélytanulási modellek jobb minőségű eredményeket érhetnek el, és nagyobb mennyiségű adatra méretezhetők.