Mi és gépi tanulás a Databricksen
Ez a cikk azokat az eszközöket ismerteti, amelyeket a Mozaik AI (korábbi nevén Databricks Machine Learning) biztosít az AI- és ML-rendszerek létrehozásához. Az ábra bemutatja, hogy a Databricks platformon található különböző termékek hogyan segítik a végpontok közötti munkafolyamatok implementálását az AI- és ML-rendszerek létrehozásához és üzembe helyezéséhez
Generatív AI a Databricksen
A Mozaik AI egyesíti az AI életciklusát az adatgyűjtéstől és az előkészítéstől a modellfejlesztésen és az LLMOpson át a kiszolgálásig és a monitorozásig. A következő funkciók kifejezetten a generatív AI-alkalmazások fejlesztésének megkönnyítésére vannak optimalizálva:
- Unity-katalógus az adatok, szolgáltatások, modellek és függvények szabályozásához, felderítéséhez, verziószámozásához és hozzáférés-vezérléséhez.
- MLflow a modellfejlesztés nyomon követéséhez.
- Az LLM-ek üzembe helyezéséhez szolgáló Mozaik AI-modell. A végpontot kiszolgáló modellt konfigurálhatja kifejezetten a generatív AI-modellek eléréséhez:
- State-of-the-art open LLMs using Foundation Model API-k.
- A Databricksen kívül üzemeltetett külső modellek. Tekintse meg a külső modelleket a Mozaik AI-modell-szolgáltatásban.
- A Mozaik AI Vector Search egy lekérdezhető vektoradatbázist biztosít, amely beágyazási vektorokat tárol, és konfigurálható úgy, hogy automatikusan szinkronizálja a tudásbázis.
- Lakehouse Monitorozás adatmonitorozáshoz és modell előrejelzési minőségéhez és sodródásához automatikus hasznos adatok naplózásával , következtetési táblákkal.
- AI Playground a Databricks-munkaterületről származó generatív AI-modellek teszteléséhez. Kérheti, összehasonlíthatja és módosíthatja a beállításokat, például a rendszer parancssori és következtetési paramétereit.
- Mozaik AI-modell betanítása (korábbi nevén alapmodell-képzés) az alapmodellek saját adatokkal történő testreszabásához, hogy optimalizálja a teljesítményét az adott alkalmazáshoz.
- Mozaik AI-ügynök keretrendszer éles minőségű ügynökök, például a Retrieveal Augmented Generation (RAG) alkalmazások létrehozásához és üzembe helyezéséhez.
- A Mozaik AI-ügynök kiértékelése a generatív AI-alkalmazások, köztük a RAG-alkalmazások és -láncok minőségének, költségének és késésének kiértékeléséhez.
Mi az a generatív AI?
A Generatív AI egyfajta mesterséges intelligencia, amely arra összpontosít, hogy a számítógépek modelleket használva olyan tartalmakat hozzanak létre, mint a képek, a szöveg, a kód és a szintetikus adatok.
A Generatív AI-alkalmazások a generatív AI-modellekre épülnek: nagy nyelvi modellekre (LLM-ek) és alapmodellekre.
- Az LLM-ek olyan mélytanulási modellek, amelyek nagy adathalmazokat használnak fel és tanítanak be, hogy kimagasló teljesítményt nyújtsunk a nyelvfeldolgozási feladatokban. Új szövegkombinációkat hoznak létre, amelyek a betanítási adatok alapján utánozzák a természetes nyelvet.
- A generatív AI-modellek vagy alapmodellek olyan nagy ml-modellek , amelyeket előre betanítanak azzal a szándékkal, hogy pontosabb nyelvi megértési és létrehozási feladatokhoz finomhangolják őket. Ezek a modellek a bemeneti adatok mintáinak megkülönböztetésére szolgálnak.
Miután ezek a modellek befejezték a tanulási folyamatokat, statisztikailag valószínű kimeneteket generálnak, amikor a rendszer kéri őket, és különböző feladatok elvégzésére használhatók, például:
- A rendszerképek létrehozása meglévők alapján, vagy egy kép stílusának használata új kép módosításához vagy létrehozásához.
- Beszédfeladatok, például átírás, fordítás, kérdés/válasz generálása, valamint a szöveg szándékának vagy jelentésének értelmezése.
Fontos
Bár számos LLM vagy más generatív AI-modell rendelkezik védelemekkel, továbbra is káros vagy pontatlan információkat hozhatnak létre.
A Generatív AI a következő tervezési mintákkal rendelkezik:
- Parancssori tervezés: Speciális kérések létrehozása az LLM viselkedésének irányításához
- Bővített generáció (RAG) lekérése: LLM kombinálása külső tudáslekéréssel
- Finomhangolás: Előre betanított LLM-nek adott tartomány adatkészletekhez való igazítása
- Előzetes betanítás: LLM betanítása az alapoktól
Gépi tanulás a Databricksen
A Mozaik AI-vel egyetlen platform szolgálja ki az ml-fejlesztés és -üzembe helyezés minden lépését, a nyers adatoktól a következtetési táblákig, amelyek minden kérést és választ mentenek egy kiszolgált modellhez. Az adattudósok, az adatmérnökök, az ml-mérnökök és a DevOps ugyanazokkal az eszközökkel és egyetlen igazságforrással végezhetik a munkájukat.
A Mozaik AI egyesíti az adatréteget és az ML-platformot. Minden adategység és összetevő, például modellek és függvények egyetlen katalógusban felderíthetők és szabályozhatók. Az adatok és modellek egyetlen platformjának használata lehetővé teszi a nyers adatoktól az éles modellig való leállás nyomon követését. A beépített adatok és modellek monitorozása a platformon is tárolt táblákba menti a minőségi metrikákat, így könnyebben azonosíthatók a modell teljesítményproblémáinak kiváltó okai. További információ arról, hogy a Databricks hogyan támogatja a teljes ML-életciklust és az MLOps-t, tekintse meg az MLOps-munkafolyamatokat az Azure Databricks és az MLOps Stacks esetében: a modellfejlesztési folyamatot kódként.
Az adatintelligencia-platform néhány fő összetevője a következő:
Tevékenységek | Összetevő |
---|---|
Adatok, funkciók, modellek és függvények szabályozása és kezelése. A felderítés, a verziószámozás és az életút is. | Unity-katalógus |
Az adatok, az adatminőség és a modell előrejelzési minőségének változásainak nyomon követése | Lakehouse Monitorozás, Következtetési táblázatok |
Funkciófejlesztés és -kezelés | Szolgáltatástervezés és -szolgáltatás. |
Modellek betanítása | Mozaik AutoML, Databricks-jegyzetfüzetek |
Modellfejlesztés nyomon követése | MLflow-nyomkövetés |
Egyéni modellek kiszolgálása | Mozaik AI-modell kiszolgálása. |
Automatizált munkafolyamatok és éles üzemre kész ETL-folyamatok létrehozása | Databricks-feladatok |
Git-integráció | Databricks Git-mappák |
Mély tanulás a Databricksen
A mélytanulási alkalmazások infrastruktúrájának konfigurálása nehézkes lehet. A Databricks Runtime for Machine Learning gondoskodik róla, olyan fürtökkel, amelyek a leggyakoribb mélytanulási kódtárak, például a TensorFlow, a PyTorch és a Keras beépített verzióival rendelkeznek.
A Databricks Runtime ML-fürtök előre konfigurált GPU-támogatást is tartalmaznak illesztőprogramokkal és támogató kódtárakkal. Emellett támogatja az olyan kódtárakat, mint a Ray , hogy párhuzamosítsa a számítási feldolgozást az ML-munkafolyamatok és az ML-alkalmazások skálázásához.
A Databricks Runtime ML-fürtök előre konfigurált GPU-támogatást is tartalmaznak illesztőprogramokkal és támogató kódtárakkal. A Mozaik AI-modell-kiszolgáló lehetővé teszi skálázható GPU-végpontok létrehozását a mélytanulási modellekhez további konfiguráció nélkül.
Gépi tanulási alkalmazások esetén a Databricks a Databricks Runtime for Machine Learning alkalmazást futtató fürtöt javasolja. Lásd: Fürt létrehozása a Databricks Runtime ML használatával.
A Databricks mély tanulásának első lépései:
- Ajánlott eljárások az Azure Databricksben végzett mély tanuláshoz
- Mély tanulás a Databricksen
- Referenciamegoldások mély tanuláshoz
Következő lépések
Első lépésként tekintse meg a következőt:
A Databricks Mozaik AI-n ajánlott MLOps-munkafolyamatért lásd:
A Databricks Mozaik AI főbb funkcióinak megismeréséhez lásd: