MLflow a gen AI-ügynökhöz és az ML-modell életciklusához
Ez a cikk azt ismerteti, hogy a Databricks MLflow-ját hogyan használják kiváló minőségű generatív AI-ügynökök és gépi tanulási modellek fejlesztésére.
Jegyzet
Ha most ismerkedik az Azure Databricks szolgáltatással, próbálja ki az MLflow-t Databricks Community Edition.
Mi az MLflow?
Az MLflow egy nyílt forráskódú platform modellek és generatív AI-alkalmazások fejlesztéséhez. A következő elsődleges összetevőket tartalmazza:
- Nyomon követés: Lehetővé teszi a kísérletek nyomon követését a paraméterek és eredmények rögzítéséhez és összehasonlításához.
- Modellek: Lehetővé teszi a különböző ML-kódtárak modelljeinek kezelését és üzembe helyezését különböző modellkiszolgáló és -következtetési platformokon.
- Modell-regisztráció: Lehetővé teszi a modell üzembe helyezésének folyamatát az előkészítéstől az éles üzemig, a modell verziókezelési és megjegyzési képességeivel.
- AI-ügynökök kiértékelése és nyomon követése: Lehetővé teszi a kiváló minőségű AI-ügynökök fejlesztését azáltal, hogy segít az ügynökök összehasonlításában, kiértékelésében és hibaelhárításában.
Az MLflow a Java, Python, R és REST API-kat támogatja.
Databricks által felügyelt MLflow
A Databricks az MLflow teljes körűen felügyelt és üzemeltetett verzióját biztosítja, amely a nyílt forráskódú felületre épül, hogy robusztusabbá és méretezhetőbbé tegye a vállalati használatra.
Az alábbi ábra bemutatja, hogyan integrálható a Databricks az MLflow-jal a gépi tanulási modellek betanítása és üzembe helyezése érdekében.
A Databricks által felügyelt MLflow a Unity Catalogra és a Cloud Data Lake-ra épül, hogy egyesítse az ml-életciklus összes adatát és AI-eszközét:
- funkciótároló: Databricks automatikus funkciókeresése leegyszerűsíti az integrációt, és csökkenti a hibákat.
- Modellek betanítása: A Mozaik AI használata modellek betanítására vagy alapmodellek finomhangolására.
- Nyomon követés: Az MLflow paraméterek, metrikák és összetevők naplózásával nyomon követi a betanítást a modell teljesítményének kiértékelése és összehasonlítása érdekében.
- Modellregisztrációs adatbázis: MLflow modellregisztrációs adatbázisa, amely a Unity Katalógussal integrálva központosítja az AI-modelleket és -összetevőket.
- modellkiszolgáló: Mozaik AI-modellkiszolgáló modelleket helyez üzembe egy REST API-végponton.
- Monitorozás: Mozaik AI-modellkiszolgáló automatikusan rögzíti a modellek monitorozására és hibakeresésére irányuló kéréseket és válaszokat. Az MLflow ezeket az adatokat az egyes kérések nyomkövetési adataival egészíti ki.
Modell tanítása
Az MLflow-modellek a Databricks AI- és ML-fejlesztésének középpontjában állnak. Az MLflow-modellek szabványosított formátumot jelentenek a gépi tanulási modellek és a generatív AI-ügynökök csomagolásához. A szabványosított formátum biztosítja, hogy a Databricks alsóbb rétegbeli eszközei és munkafolyamatai modelleket és ügynököket használjanak.
- MLflow-dokumentáció – modellek.
A Databricks funkciókat biztosít, amelyek segítenek különféle gépi tanulási modellek betanításában.
- AI-modellek betanítása a Mozaik AI-használatával.
Kísérletkövetés
A Databricks MLflow-kísérleteket használ szervezeti egységként, hogy nyomon kövesse a munkáját a modellek fejlesztése során.
A kísérletkövetés lehetővé teszi paraméterek, metrikák, összetevők és kódverziók naplózását és kezelését a gépi tanulási betanítás és az ügynökfejlesztés során. A naplók kísérletekbe és futtatásokba való rendszerezése lehetővé teszi a modellek összehasonlítását, a teljesítmény elemzését és az iterációt.
- Kísérletkövetés a Databrickshasználatával.
- A futtatásokról és a kísérletkövetésiáltalános információkért tekintse meg az MLflow dokumentációját.
Modellregisztrációs adatbázis a Unity-katalógussal
Az MLflow Modellregisztrációs adatbázis egy központosított modelladattár, felhasználói felület és API-k készlete a modell üzembehelyezési folyamatának kezeléséhez.
A Databricks integrálja a Modellregisztrációs adatbázist a Unity Katalógussal, hogy központosított szabályozást biztosítson a modellek számára. A Unity Catalog integrálása lehetővé teszi a munkaterületek közötti modellek elérését, a modell-leállás nyomon követését és az újra felhasználható modellek felderítését.
- Modellek kezelése a Databricks Unity Cataloghasználatával.
- Az MLflow dokumentációját tekintse meg általános információkért a modellregisztrációsvonatkozóan.
Modellek szervízelése
A Databricks Model Serving szorosan integrálva van az MLflow-modellregisztrációs adatbázissal, és egységes, méretezhető felületet biztosít az AI-modellek üzembe helyezéséhez, szabályozásához és lekérdezéséhez. Minden kiszolgált modell REST API-ként érhető el, amelyet webes vagy ügyfélalkalmazásokba integrálhat.
Bár ezek különböző összetevők, a modellkiszolgálók nagymértékben támaszkodnak az MLflow Modellregisztrációs adatbázisra a modellverziók, a függőségek kezelése, az ellenőrzés és a szabályozás kezeléséhez.
- Modellkiszolgálás Databrickshasználatával.
AI-ügynökök fejlesztése és kiértékelése
Az AI-ügynökök fejlesztése esetén a Databricks az ML-modell fejlesztéséhez hasonlóan integrálható az MLflow-tal. Azonban van néhány fontos különbség:
- A Databricksben AI-ügynökök létrehozásához használja a Mosaic AI Agent Framework, amely az MLflow-ra támaszkodik az ügynök kódok, a teljesítménymutatók és az ügynök nyomkövetéseinek nyomon követéséhez.
- A Databricks ügynökeinek kiértékeléséhez használható a Mosaic AI ügynökértékelés, amely az MLflow-ra támaszkodik az értékelési eredmények követésére.
- Az MLflow-nyomkövetés az ügynökök esetében is magában foglalja MLflow-nyomkövetési. Az MLflow Tracing lehetővé teszi az ügynök szolgáltatásainak végrehajtásával kapcsolatos részletes információk megtekintését. A nyomkövetés rögzíti a kérések minden közbenső lépéséhez tartozó bemeneteket, kimeneteket és metaadatokat, így gyorsan megtalálhatja a váratlan viselkedés forrását az ügynökökben.
Az alábbi ábra bemutatja, hogyan integrálható a Databricks az MLflow-jal az AI-ügynökök létrehozásához és üzembe helyezéséhez.
A Databricks által felügyelt MLflow a Unity Catalogra és a Cloud Data Lake-ra épül, hogy egyesítse az összes adatot és AI-eszközt a genAI alkalmazás életciklusában:
- Vektor & funkciótároló: Databricks automatizált vektor- és funkciókeresései leegyszerűsítik az integrációt és csökkentik a hibákat.
- AI-ügynökök létrehozása és kiértékelése: Mozaik AI-ügynök keretrendszere és ügynökértékelése segít ügynökök létrehozásában és kimenetük kiértékelésében.
- Nyomkövetési & nyomkövetés: MLflow-nyomkövetés részletes ügynökvégrehajtási információkat rögzít a fokozott genAI-megfigyelhetőség érdekében.
- Modellregisztrációs adatbázis: MLflow modellregisztrációs adatbázisa, amely a Unity Katalógussal integrálva központosítja az AI-modelleket és -összetevőket.
- modellkiszolgáló: Mozaik AI-modellkiszolgáló modelleket helyez üzembe egy REST API-végponton.
- monitorozás: MLflow automatikusan rögzíti a modellek monitorozására és hibakeresésére irányuló kéréseket és válaszokat.
Nyílt forráskódú és Databricks által felügyelt MLflow-funkciók
A nyílt forráskódú és a Databricks által felügyelt verziók között megosztott általános MLflow-fogalmakért, API-kért és funkciókért tekintse meg MLflow dokumentációját. A Databricks által felügyelt MLflow-szolgáltatásokról a Databricks dokumentációjában olvashat.
Az alábbi táblázat a nyílt forráskódú MLflow és a Databricks által felügyelt MLflow közötti főbb különbségeket emeli ki, és dokumentációs hivatkozásokat tartalmaz a további információkhoz:
Funkció | Rendelkezésre állás nyílt forráskódú MLflow-on | Rendelkezésre állás a Databricks által felügyelt MLflow-on |
---|---|---|
Biztonság | A felhasználónak saját biztonsági szabályozási réteget kell biztosítania | Databricks nagyvállalati szintű biztonság |
Katasztrófa-helyreállítás | Rendelkezésre nem álló | Databricks katasztrófakezelés |
Kísérletkövetés | MLflow Tracking API | Databricks fejlett kísérletkövetési integrált MLflow Tracking API |
Modellregisztrációs adatbázis | MLflow-modellregisztráció | MLflow Modellregisztráció integrálva a Databricks Unity Cataloggal |
Unity Catalog-integráció | Nyílt forráskódú integráció a Unity Katalógussal | Databricks Unity Catalog |
Modell üzembe helyezése | Felhasználó által konfigurált integráció külső kiszolgáló megoldásokkal (SageMaker, Kubernetes, tárolószolgáltatások stb.) | Databricks-modell szolgáltatás és külső szolgáltatási megoldások |
AI-ügynökök | MLflow LLM fejlesztés | Integrált MLflow LLM-fejlesztés a Mozaik AI-ügynök keretrendszerrel és a ügynökértékeléssel |
Titkosítás | Rendelkezésre nem álló | Titkosítás ügyfél által felügyelt kulcsokkal |