Szolgáltatásfejlesztés és -szolgáltatás
Ez a lap a Unity Cataloghoz engedélyezett munkaterületek funkciótervezési és szolgáltatási képességeit ismerteti. Ha a munkaterület nincs engedélyezve a Unity Cataloghoz, tekintse meg a Munkaterület funkciótárolóját (örökölt) ismertető témakört.
Miért érdemes a Databricks szolgáltatást tárolni?
A Databricks Adatintelligencia-platformmal a modell teljes betanítási munkafolyamata egyetlen platformon zajlik:
- A nyers adatokat betöltést, szolgáltatástáblák létrehozását, modellek betanítását és kötegelt következtetést végző adatfolyamok. Amikor a Unity Catalog szolgáltatásfejlesztésével tanít be és naplóz egy modellt, a modell szolgáltatás-metaadatokkal lesz csomagolva. Amikor a modellt kötegelt pontozáshoz vagy online következtetéshez használja, az automatikusan lekéri a funkcióértékeket. A hívónak nem kell tudnia róluk, és nem kell logikát használnia az új adatok pontozásához szükséges funkciók kereséséhez vagy összekapcsolásához.
- Az egyetlen kattintással elérhető és ezredmásodperc késést biztosító végpontokat kiszolgáló modell és szolgáltatás.
- Adat- és modellfigyelés.
A platform emellett a következőket is biztosítja:
- Funkciófelderítés. A Databricks felhasználói felületén böngészhet és kereshet funkciók között.
- Irányítás. A funkciótáblákat, függvényeket és modelleket a Unity Catalog szabályozza. A modell betanításakor a betanított adatoktól örökli az engedélyeket.
- Származás. Amikor szolgáltatástáblát hoz létre az Azure Databricksben, a szolgáltatástábla létrehozásához használt adatforrások mentése és akadálymentesítése történik. A funkciótáblák minden egyes funkciója esetében elérheti a szolgáltatást használó modelleket, jegyzetfüzeteket, feladatokat és végpontokat.
- Munkaterületek közötti hozzáférés. A szolgáltatástáblák, függvények és modellek automatikusan elérhetők minden olyan munkaterületen, amely hozzáfér a katalógushoz.
Követelmények
- A munkaterületet engedélyezni kell a Unity Cataloghoz.
- A Unity Catalog szolgáltatásfejlesztéséhez a Databricks Runtime 13.3 LTS vagy újabb verziója szükséges.
Ha a munkaterület nem felel meg ezeknek a követelményeknek, tekintse meg a munkaterület funkciótárolóját (örökölt) a munkaterület funkciótárolójának használatáról.
Hogyan működik a Databricks szolgáltatásfejlesztése?
A Databricks szolgáltatásfejlesztését használó tipikus gépi tanulási munkafolyamat az alábbi elérési utat követi:
- Írjon kódot a nyers adatok funkciókká alakításához, és hozzon létre egy Spark DataFrame-et, amely tartalmazza a kívánt funkciókat.
- Delta-tábla létrehozása a Unity Catalogban. Az elsődleges kulccsal rendelkező Delta-táblák automatikusan funkciótáblák.
- Modell betanítása és naplózása a funkciótáblával. Ha ezt teszi, a modell tárolja a betanításhoz használt funkciók specifikációit. Amikor a modellt következtetésre használják, automatikusan összekapcsolja a megfelelő funkciótáblák funkcióit.
- Modell regisztrálása a Modellregisztrációs adatbázisban.
Mostantól a modell használatával előrejelzéseket készíthet az új adatokról. Köteghasználati esetek esetén a modell automatikusan lekéri a szükséges funkciókat a Feature Store-ból.
A használati esetek valós idejű kiszolgálásához tegye közzé a funkciókat egy online táblában. Harmadik féltől származó online áruházak is támogatottak. Tekintse meg a külső online áruházakat.
A következtetési időpontban a modell beolvassa az előre kiszámított funkciókat az online áruházból, és összekapcsolja őket az ügyfélkérésben megadott adatokkal a végpontot kiszolgáló modellhez.
Funkciófejlesztés használatának megkezdése – példajegyzetfüzetek
Első lépésként próbálja ki ezeket a példajegyzetfüzeteket. Az alapszintű jegyzetfüzet végigvezeti a funkciótáblák létrehozásán, a modell betanításán, majd a kötegelt pontozáson az automatikus funkciókereséssel. Emellett bemutatja a Szolgáltatásmérnöki felhasználói felületet is, és bemutatja, hogyan használhatja a szolgáltatások keresésére, valamint a szolgáltatások létrehozásának és használatának megértésére.
Alapszintű szolgáltatásfejlesztés a Unity Catalog példajegyzetfüzetében
A taxis példajegyzetfüzet bemutatja a funkciók létrehozásának, frissítésének és a modell betanításához és a kötegkövetkeztetésekhez való használatát.
Funkciófejlesztés a Unity Catalog taxi-példajegyzetfüzetében
Támogatott adattípusok
A Unity Catalog és a munkaterület funkciótárolójának szolgáltatásfejlesztése a következő PySpark-adattípusokat támogatja:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]StructType
[2]
[1] BinaryType
, DecimalType
és MapType
a Unity Catalog és a Workspace Feature Store 0.3.5-ös vagy újabb verziójában is támogatott.
[2] StructType
a Feature Engineering 0.6.0-s vagy újabb verziójában támogatott.
A fent felsorolt adattípusok támogatják a gépi tanulási alkalmazásokban gyakran használt funkciótípusokat. Példa:
- A sűrű vektorokat, tenzorokat és beágyazásokat
ArrayType
a következőképpen tárolhatja. - A ritka vektorokat, tenzorokat és beágyazásokat
MapType
a következőképpen tárolhatja. - A szöveget a következőképpen
StringType
tárolhatja: .
Az online áruházakban való közzétételkor a ArrayType
MapType
szolgáltatások JSON formátumban vannak tárolva.
A Szolgáltatástár felhasználói felülete metaadatokat jelenít meg a funkciók adattípusainál:
További információ
Az ajánlott eljárásokkal kapcsolatos további információkért töltse le a Funkciótárak átfogó útmutatóját.