Mi és gépi Tanulás a Databricksen
Ez a cikk azOkat az eszközöket ismerteti, amelyeket az Azure Databricks biztosít az AI- és ML-munkafolyamatok létrehozásához és monitorozásához. Az ábra bemutatja, hogyan működnek együtt ezek az összetevők a modellfejlesztési és üzembehelyezési folyamat implementálásához.
Miért érdemes a Databrickset gépi tanuláshoz és mély tanuláshoz használni?
Az Azure Databricks segítségével egyetlen platformon implementálhatja a teljes ml-életciklust, teljes körű szabályozással az ML-folyamat során. Az Azure Databricks az alábbi beépített eszközöket tartalmazza az ml-munkafolyamatok támogatásához:
- Unity-katalógus az adatok, szolgáltatások, modellek és függvények szabályozásához, felderítéséhez, verziószámozásához és hozzáférés-vezérléséhez.
- Lakehouse Monitorozás adatmonitorozáshoz.
- Szolgáltatástervezés és -szolgáltatás.
- A modell életciklusának támogatása:
- Databricks AutoML automatizált modellbetanításhoz.
- MLflow a modellfejlesztés nyomon követéséhez.
- Unity-katalógus a modellkezeléshez.
- A Databricks modell magas rendelkezésre állású, alacsony késésű modell kiszolgálására szolgál . Ez magában foglalja az LLM-ek üzembe helyezését a következőkkel:
- Alapszintű modell API-k , amelyek lehetővé teszik a legkitűnőbb nyitott modellek elérését és lekérdezését egy kiszolgáló végpontról.
- Külső modellek , amelyek lehetővé teszik a Databricksen kívül üzemeltetett modellek elérését.
- Lakehouse Monitorozás a modell előrejelzési minőségének és eltérésének nyomon követéséhez.
- Databricks-munkafolyamatok automatizált munkafolyamatokhoz és éles üzemre kész ETL-folyamatokhoz.
- Databricks Git-mappák a kódkezeléshez és a Git-integrációhoz.
Mély tanulás a Databricksen
A mélytanulási alkalmazások infrastruktúrájának konfigurálása nehézkes lehet.
A Databricks Runtime for Machine Tanulás gondoskodik erről Az Ön számára olyan fürtök, amelyek a leggyakoribb mélytanulási kódtárak beépített kompatibilis verzióival rendelkeznek, például a TensorFlow, a PyTorch és a Keras, valamint olyan támogató kódtárakkal, mint a Petastorm, a Hyperopt és a Horovod. A Databricks Runtime ML-fürtök előre konfigurált GPU-támogatást is tartalmaznak illesztőprogramokkal és támogató kódtárakkal. Emellett támogatja az olyan kódtárakat, mint a Ray , hogy párhuzamosítsa a számítási feldolgozást az ML-munkafolyamatok és az AI-alkalmazások skálázásához.
A Databricks Runtime ML-fürtök előre konfigurált GPU-támogatást is tartalmaznak illesztőprogramokkal és támogató kódtárakkal. A Databricks Model Serving lehetővé teszi skálázható GPU-végpontok létrehozását a mélytanulási modellekhez további konfiguráció nélkül.
Gépi tanulási alkalmazások esetén a Databricks egy Databricks Runtime for Machine Tanulás futtató fürtöt javasol. Lásd: Fürt létrehozása a Databricks Runtime ML használatával.
A Databricks mély tanulásának első lépései:
- Ajánlott eljárások az Azure Databricksben végzett mély tanuláshoz
- Mély tanulás a Databricksen
- Referenciamegoldások mély tanuláshoz
Nagy nyelvi modellek (LLM-ek) és generatív AI a Databricksen
A Databricks Runtime for Machine Tanulás olyan kódtárakat tartalmaz, mint a Face Transformers és a LangChain használata, amelyek lehetővé teszik a meglévő előre betanított modellek vagy más nyílt forráskódú kódtárak integrálását a munkafolyamatba. A Databricks MLflow integrációja megkönnyíti az MLflow nyomkövetési szolgáltatás használatát transzformátorfolyamatokkal, modellekkel és feldolgozási összetevőkkel. Emellett integrálhatja az OpenAI-modelleket vagy -megoldásokat olyan partnerektől, mint a John Snow Labs az Azure Databricks-munkafolyamatokban.
Az Azure Databricks segítségével testre szabhat egy LLM-et az adatain az adott feladathoz. Az olyan nyílt forráskód eszközök támogatásával, mint a Face és a DeepSpeed ölelése, hatékonyan használhatja az alapszintű LLM-et, és betaníthatja a saját adataival, hogy javítsa az adott tartomány és számítási feladat pontosságát. Ezután használhatja az egyéni LLM-et a generatív AI-alkalmazásokban.
A Databricks emellett alapszintű modell API-kat és külső modelleket is biztosít, amelyek lehetővé teszik a csúcsszintű nyitott modellek elérését és lekérdezését egy kiszolgáló végpontról. Az Alapmodell API-k használatával a fejlesztők gyorsan és egyszerűen hozhatnak létre olyan alkalmazásokat, amelyek kiváló minőségű, generatív AI-modellt használnak anélkül, hogy fenntartanák a saját modell üzembe helyezését.
Az SQL-felhasználók számára a Databricks olyan AI-függvényeket biztosít, amelyekkel az SQL-adatelemzők közvetlenül az adatfolyamaikon és munkafolyamataikon belül hozzáférhetnek az LLM-modellekhez, például az OpenAI-ból. Lásd: AI Functions az Azure Databricksben.
Databricks Runtime for Machine Tanulás
A Databricks Runtime for Machine Tanulás (Databricks Runtime ML) automatizálja egy olyan fürt létrehozását, amely előre összeállított gépi tanulási és mély tanulási infrastruktúrával rendelkezik, beleértve a leggyakoribb ML- és DL-kódtárakat is. A Databricks Runtime ML egyes verzióiban található kódtárak teljes listáját a kibocsátási megjegyzésekben találja.
A Unity Katalógusban a gépi tanulási munkafolyamatok adatainak eléréséhez a fürt hozzáférési módjának egyetlen felhasználónak kell lennie (hozzárendelve). A megosztott fürtök nem kompatibilisek a Databricks Runtime for Machine Tanulás szolgáltatással. Ezenkívül a Databricks Runtime ML nem támogatott tableACLs-fürtökön vagy olyan fürtökön, amelyeken spark.databricks.pyspark.enableProcessIsolation config
a beállítás értéke a következő true
.
Fürt létrehozása a Databricks Runtime ML használatával
Fürt létrehozásakor válasszon egy Databricks Runtime ML-verziót a Databricks futtatókörnyezeti verziójának legördülő menüjéből. A PROCESSZOR- és GPU-kompatibilis ml-futtatókörnyezetek is elérhetők.
Ha kiválaszt egy fürtöt a jegyzetfüzet legördülő menüjéből, a Databricks Futtatókörnyezet verziója a fürtnév jobb oldalán jelenik meg:
Ha GPU-kompatibilis ml-futtatókörnyezetet választ, a rendszer kérni fogja, hogy válasszon egy kompatibilis illesztőprogramtípust és feldolgozótípust. A nem kompatibilis példánytípusok szürkítve jelennek meg a legördülő menüben. A GPU-kompatibilis példánytípusok a GPU gyorsított címkéje alatt jelennek meg .
Feljegyzés
A Unity Katalógusban a gépi tanulási munkafolyamatok adatainak eléréséhez a fürt hozzáférési módjának egyetlen felhasználónak kell lennie (hozzárendelve). A megosztott fürtök nem kompatibilisek a Databricks Runtime for Machine Tanulás szolgáltatással.
A Databricks Runtime ML-ben található kódtárak
A Databricks Runtime ML számos népszerű ML-kódtárat tartalmaz. A kódtárak minden kiadással frissülnek, hogy új funkciókat és javításokat tartalmazzanak.
A Databricks a támogatott kódtárak egy részét felső szintű kódtárakként jelölte ki. Ezekhez a kódtárakhoz a Databricks gyorsabb frissítési ütemet biztosít, és minden futtatókörnyezeti kiadással frissít a legújabb csomagkiadásokra (tiltva a függőségi ütközéseket). A Databricks fejlett támogatást, tesztelést és beágyazott optimalizálást is biztosít a legfelső szintű kódtárakhoz.
A legfelső szintű és egyéb rendelkezésre álló kódtárak teljes listáját a Databricks Runtime ML kibocsátási megjegyzéseiben találja.
Következő lépések
Első lépésként tekintse meg a következőt:
A Databricks Machine Tanulás ajánlott MLOps-munkafolyamatát lásd:
A Databricks Machine Tanulás főbb funkcióinak megismeréséhez lásd:
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: