Mi és gépi Tanulás a Databricksen

Ez a cikk azOkat az eszközöket ismerteti, amelyeket az Azure Databricks biztosít az AI- és ML-munkafolyamatok létrehozásához és monitorozásához. Az ábra bemutatja, hogyan működnek együtt ezek az összetevők a modellfejlesztési és üzembehelyezési folyamat implementálásához.

Gépi tanulási diagram: Modellfejlesztés és üzembe helyezés a Databricksben

Miért érdemes a Databrickset gépi tanuláshoz és mély tanuláshoz használni?

Az Azure Databricks segítségével egyetlen platformon implementálhatja a teljes ml-életciklust, teljes körű szabályozással az ML-folyamat során. Az Azure Databricks az alábbi beépített eszközöket tartalmazza az ml-munkafolyamatok támogatásához:

Mély tanulás a Databricksen

A mélytanulási alkalmazások infrastruktúrájának konfigurálása nehézkes lehet.

A Databricks Runtime for Machine Tanulás gondoskodik erről Az Ön számára olyan fürtök, amelyek a leggyakoribb mélytanulási kódtárak beépített kompatibilis verzióival rendelkeznek, például a TensorFlow, a PyTorch és a Keras, valamint olyan támogató kódtárakkal, mint a Petastorm, a Hyperopt és a Horovod. A Databricks Runtime ML-fürtök előre konfigurált GPU-támogatást is tartalmaznak illesztőprogramokkal és támogató kódtárakkal. Emellett támogatja az olyan kódtárakat, mint a Ray , hogy párhuzamosítsa a számítási feldolgozást az ML-munkafolyamatok és az AI-alkalmazások skálázásához.

A Databricks Runtime ML-fürtök előre konfigurált GPU-támogatást is tartalmaznak illesztőprogramokkal és támogató kódtárakkal. A Databricks Model Serving lehetővé teszi skálázható GPU-végpontok létrehozását a mélytanulási modellekhez további konfiguráció nélkül.

Gépi tanulási alkalmazások esetén a Databricks egy Databricks Runtime for Machine Tanulás futtató fürtöt javasol. Lásd: Fürt létrehozása a Databricks Runtime ML használatával.

A Databricks mély tanulásának első lépései:

Nagy nyelvi modellek (LLM-ek) és generatív AI a Databricksen

A Databricks Runtime for Machine Tanulás olyan kódtárakat tartalmaz, mint a Face Transformers és a LangChain használata, amelyek lehetővé teszik a meglévő előre betanított modellek vagy más nyílt forráskódú kódtárak integrálását a munkafolyamatba. A Databricks MLflow integrációja megkönnyíti az MLflow nyomkövetési szolgáltatás használatát transzformátorfolyamatokkal, modellekkel és feldolgozási összetevőkkel. Emellett integrálhatja az OpenAI-modelleket vagy -megoldásokat olyan partnerektől, mint a John Snow Labs az Azure Databricks-munkafolyamatokban.

Az Azure Databricks segítségével testre szabhat egy LLM-et az adatain az adott feladathoz. Az olyan nyílt forráskód eszközök támogatásával, mint a Face és a DeepSpeed ölelése, hatékonyan használhatja az alapszintű LLM-et, és betaníthatja a saját adataival, hogy javítsa az adott tartomány és számítási feladat pontosságát. Ezután használhatja az egyéni LLM-et a generatív AI-alkalmazásokban.

A Databricks emellett alapszintű modell API-kat és külső modelleket is biztosít, amelyek lehetővé teszik a csúcsszintű nyitott modellek elérését és lekérdezését egy kiszolgáló végpontról. Az Alapmodell API-k használatával a fejlesztők gyorsan és egyszerűen hozhatnak létre olyan alkalmazásokat, amelyek kiváló minőségű, generatív AI-modellt használnak anélkül, hogy fenntartanák a saját modell üzembe helyezését.

Az SQL-felhasználók számára a Databricks olyan AI-függvényeket biztosít, amelyekkel az SQL-adatelemzők közvetlenül az adatfolyamaikon és munkafolyamataikon belül hozzáférhetnek az LLM-modellekhez, például az OpenAI-ból. Lásd: AI Functions az Azure Databricksben.

Databricks Runtime for Machine Tanulás

A Databricks Runtime for Machine Tanulás (Databricks Runtime ML) automatizálja egy olyan fürt létrehozását, amely előre összeállított gépi tanulási és mély tanulási infrastruktúrával rendelkezik, beleértve a leggyakoribb ML- és DL-kódtárakat is. A Databricks Runtime ML egyes verzióiban található kódtárak teljes listáját a kibocsátási megjegyzésekben találja.

A Unity Katalógusban a gépi tanulási munkafolyamatok adatainak eléréséhez a fürt hozzáférési módjának egyetlen felhasználónak kell lennie (hozzárendelve). A megosztott fürtök nem kompatibilisek a Databricks Runtime for Machine Tanulás szolgáltatással. Ezenkívül a Databricks Runtime ML nem támogatott tableACLs-fürtökön vagy olyan fürtökön, amelyeken spark.databricks.pyspark.enableProcessIsolation config a beállítás értéke a következő true.

Fürt létrehozása a Databricks Runtime ML használatával

Fürt létrehozásakor válasszon egy Databricks Runtime ML-verziót a Databricks futtatókörnyezeti verziójának legördülő menüjéből. A PROCESSZOR- és GPU-kompatibilis ml-futtatókörnyezetek is elérhetők.

A Databricks Runtime ML kiválasztása

Ha kiválaszt egy fürtöt a jegyzetfüzet legördülő menüjéből, a Databricks Futtatókörnyezet verziója a fürtnév jobb oldalán jelenik meg:

A Databricks Runtime ML verziójának megtekintése

Ha GPU-kompatibilis ml-futtatókörnyezetet választ, a rendszer kérni fogja, hogy válasszon egy kompatibilis illesztőprogramtípust és feldolgozótípust. A nem kompatibilis példánytípusok szürkítve jelennek meg a legördülő menüben. A GPU-kompatibilis példánytípusok a GPU gyorsított címkéje alatt jelennek meg .

Feljegyzés

A Unity Katalógusban a gépi tanulási munkafolyamatok adatainak eléréséhez a fürt hozzáférési módjának egyetlen felhasználónak kell lennie (hozzárendelve). A megosztott fürtök nem kompatibilisek a Databricks Runtime for Machine Tanulás szolgáltatással.

A Databricks Runtime ML-ben található kódtárak

A Databricks Runtime ML számos népszerű ML-kódtárat tartalmaz. A kódtárak minden kiadással frissülnek, hogy új funkciókat és javításokat tartalmazzanak.

A Databricks a támogatott kódtárak egy részét felső szintű kódtárakként jelölte ki. Ezekhez a kódtárakhoz a Databricks gyorsabb frissítési ütemet biztosít, és minden futtatókörnyezeti kiadással frissít a legújabb csomagkiadásokra (tiltva a függőségi ütközéseket). A Databricks fejlett támogatást, tesztelést és beágyazott optimalizálást is biztosít a legfelső szintű kódtárakhoz.

A legfelső szintű és egyéb rendelkezésre álló kódtárak teljes listáját a Databricks Runtime ML kibocsátási megjegyzéseiben találja.

Következő lépések

Első lépésként tekintse meg a következőt:

A Databricks Machine Tanulás ajánlott MLOps-munkafolyamatát lásd:

A Databricks Machine Tanulás főbb funkcióinak megismeréséhez lásd: