Megosztás a következőn keresztül:


Mi és gépi tanulás a Databricksen

Ez a cikk azokat az eszközöket ismerteti, amelyeket a Mozaik AI (korábbi nevén Databricks Machine Learning) biztosít az AI- és ML-rendszerek létrehozásához. Az ábra bemutatja, hogy a Databricks platformon található különböző termékek hogyan segítik a végpontok közötti munkafolyamatok implementálását az AI- és ML-rendszerek létrehozásához és üzembe helyezéséhez

Gépi tanulási diagram: Modellfejlesztés és üzembe helyezés a Databricksben

Generatív AI a Databricksen

A Mozaik AI egyesíti az AI életciklusát az adatgyűjtéstől és az előkészítéstől a modellfejlesztésen és az LLMOpson át a kiszolgálásig és a monitorozásig. A következő funkciók kifejezetten a generatív AI-alkalmazások fejlesztésének megkönnyítésére vannak optimalizálva:

  • Unity-katalógus az adatok, szolgáltatások, modellek és függvények szabályozásához, felderítéséhez, verziószámozásához és hozzáférés-vezérléséhez.
  • MLflow a modellfejlesztés nyomon követéséhez.
  • Az LLM-ek üzembe helyezéséhez szolgáló Mozaik AI-modell. A végpontot kiszolgáló modellt konfigurálhatja kifejezetten a generatív AI-modellek eléréséhez:
  • A Mozaik AI Vector Search egy lekérdezhető vektoradatbázist biztosít, amely beágyazási vektorokat tárol, és konfigurálható úgy, hogy automatikusan szinkronizálja a tudásbázis.
  • Lakehouse Monitorozás adatmonitorozáshoz és modell előrejelzési minőségéhez és sodródásához automatikus hasznos adatok naplózásával , következtetési táblákkal.
  • AI Playground a Databricks-munkaterületről származó generatív AI-modellek teszteléséhez. Kérheti, összehasonlíthatja és módosíthatja a beállításokat, például a rendszer parancssori és következtetési paramétereit.
  • Mozaik AI-modell betanítása (korábbi nevén alapmodell-képzés) az alapmodellek saját adatokkal történő testreszabásához, hogy optimalizálja a teljesítményét az adott alkalmazáshoz.
  • Mozaik AI-ügynök keretrendszer éles minőségű ügynökök, például a Retrieveal Augmented Generation (RAG) alkalmazások létrehozásához és üzembe helyezéséhez.
  • A Mozaik AI-ügynök kiértékelése a generatív AI-alkalmazások, köztük a RAG-alkalmazások és -láncok minőségének, költségének és késésének kiértékeléséhez.

Mi az a generatív AI?

A Generatív AI egyfajta mesterséges intelligencia, amely arra összpontosít, hogy a számítógépek modelleket használva olyan tartalmakat hozzanak létre, mint a képek, a szöveg, a kód és a szintetikus adatok.

A Generatív AI-alkalmazások a generatív AI-modellekre épülnek: nagy nyelvi modellekre (LLM-ek) és alapmodellekre.

  • Az LLM-ek olyan mélytanulási modellek, amelyek nagy adathalmazokat használnak fel és tanítanak be, hogy kimagasló teljesítményt nyújtsunk a nyelvfeldolgozási feladatokban. Új szövegkombinációkat hoznak létre, amelyek a betanítási adatok alapján utánozzák a természetes nyelvet.
  • A generatív AI-modellek vagy alapmodellek olyan nagy ml-modellek , amelyeket előre betanítanak azzal a szándékkal, hogy pontosabb nyelvi megértési és létrehozási feladatokhoz finomhangolják őket. Ezek a modellek a bemeneti adatok mintáinak megkülönböztetésére szolgálnak.

Miután ezek a modellek befejezték a tanulási folyamatokat, statisztikailag valószínű kimeneteket generálnak, amikor a rendszer kéri őket, és különböző feladatok elvégzésére használhatók, például:

  • A rendszerképek létrehozása meglévők alapján, vagy egy kép stílusának használata új kép módosításához vagy létrehozásához.
  • Beszédfeladatok, például átírás, fordítás, kérdés/válasz generálása, valamint a szöveg szándékának vagy jelentésének értelmezése.

Fontos

Bár számos LLM vagy más generatív AI-modell rendelkezik védelemekkel, továbbra is káros vagy pontatlan információkat hozhatnak létre.

A Generatív AI a következő tervezési mintákkal rendelkezik:

  • Parancssori tervezés: Speciális kérések létrehozása az LLM viselkedésének irányításához
  • Bővített generáció (RAG) lekérése: LLM kombinálása külső tudáslekéréssel
  • Finomhangolás: Előre betanított LLM-nek adott tartomány adatkészletekhez való igazítása
  • Előzetes betanítás: LLM betanítása az alapoktól

Gépi tanulás a Databricksen

A Mozaik AI-vel egyetlen platform szolgálja ki az ml-fejlesztés és -üzembe helyezés minden lépését, a nyers adatoktól a következtetési táblákig, amelyek minden kérést és választ mentenek egy kiszolgált modellhez. Az adattudósok, az adatmérnökök, az ml-mérnökök és a DevOps ugyanazokkal az eszközökkel és egyetlen igazságforrással végezhetik a munkájukat.

A Mozaik AI egyesíti az adatréteget és az ML-platformot. Minden adategység és összetevő, például modellek és függvények egyetlen katalógusban felderíthetők és szabályozhatók. Az adatok és modellek egyetlen platformjának használata lehetővé teszi a nyers adatoktól az éles modellig való leállás nyomon követését. A beépített adatok és modellek monitorozása a platformon is tárolt táblákba menti a minőségi metrikákat, így könnyebben azonosíthatók a modell teljesítményproblémáinak kiváltó okai. További információ arról, hogy a Databricks hogyan támogatja a teljes ML-életciklust és az MLOps-t, tekintse meg az MLOps-munkafolyamatokat az Azure Databricks és az MLOps Stacks esetében: a modellfejlesztési folyamatot kódként.

Az adatintelligencia-platform néhány fő összetevője a következő:

Tevékenységek Összetevő
Adatok, funkciók, modellek és függvények szabályozása és kezelése. A felderítés, a verziószámozás és az életút is. Unity-katalógus
Az adatok, az adatminőség és a modell előrejelzési minőségének változásainak nyomon követése Lakehouse Monitorozás, Következtetési táblázatok
Funkciófejlesztés és -kezelés Szolgáltatástervezés és -szolgáltatás.
Modellek betanítása Mozaik AutoML, Databricks-jegyzetfüzetek
Modellfejlesztés nyomon követése MLflow-nyomkövetés
Egyéni modellek kiszolgálása Mozaik AI-modell kiszolgálása.
Automatizált munkafolyamatok és éles üzemre kész ETL-folyamatok létrehozása Databricks-feladatok
Git-integráció Databricks Git-mappák

Mély tanulás a Databricksen

A mélytanulási alkalmazások infrastruktúrájának konfigurálása nehézkes lehet. A Databricks Runtime for Machine Learning gondoskodik róla, olyan fürtökkel, amelyek a leggyakoribb mélytanulási kódtárak, például a TensorFlow, a PyTorch és a Keras beépített verzióival rendelkeznek.

A Databricks Runtime ML-fürtök előre konfigurált GPU-támogatást is tartalmaznak illesztőprogramokkal és támogató kódtárakkal. Emellett támogatja az olyan kódtárakat, mint a Ray , hogy párhuzamosítsa a számítási feldolgozást az ML-munkafolyamatok és az ML-alkalmazások skálázásához.

A Databricks Runtime ML-fürtök előre konfigurált GPU-támogatást is tartalmaznak illesztőprogramokkal és támogató kódtárakkal. A Mozaik AI-modell-kiszolgáló lehetővé teszi skálázható GPU-végpontok létrehozását a mélytanulási modellekhez további konfiguráció nélkül.

Gépi tanulási alkalmazások esetén a Databricks a Databricks Runtime for Machine Learning alkalmazást futtató fürtöt javasolja. Lásd: Fürt létrehozása a Databricks Runtime ML használatával.

A Databricks mély tanulásának első lépései:

Következő lépések

Első lépésként tekintse meg a következőt:

A Databricks Mozaik AI-n ajánlott MLOps-munkafolyamatért lásd:

A Databricks Mozaik AI főbb funkcióinak megismeréséhez lásd: