Mi az a szolgáltatástár?
Ez az oldal bemutatja, hogy mi az a szolgáltatástároló, és milyen előnyöket biztosít, valamint a Databricks Feature Store konkrét előnyeit.
A szolgáltatástár egy központosított adattár, amely lehetővé teszi az adatelemzők számára a funkciók keresését és megosztását, valamint biztosítja, hogy a funkcióértékek kiszámításához használt kód a modell betanításához és következtetéséhez is használható legyen.
A gépi tanulás meglévő adatokkal készít egy modellt a jövőbeli eredmények előrejelzéséhez. A nyers adatok szinte minden esetben előfeldolgozást és átalakítást igényelnek, mielőtt felhasználhatók a modell létrehozásához. Ezt a folyamatot funkciófejlesztésnek nevezzük, és ennek a folyamatnak a kimeneteit funkcióknak nevezzük – a modell építőelemei.
A funkciók fejlesztése összetett és időigényes. További bonyodalom, hogy a gépi tanuláshoz funkciószámításokat kell végezni a modell betanításához, majd újra, amikor a modellt használják előrejelzések készítésére. Előfordulhat, hogy az implementációkat nem ugyanaz a csapat végzi, vagy ugyanazt a kódkörnyezetet használja, ami késésekhez és hibákhoz vezethet. Emellett a szervezet különböző csapatai gyakran hasonló funkciókkal rendelkeznek, de előfordulhat, hogy nem ismerik a többi csapat által végzett munkát. A szolgáltatástárolók célja, hogy megoldják ezeket a problémákat.
Miért érdemes a Databricks feature Store-t használni?
A Databricks feature Store teljesen integrálva van az Azure Databricks más összetevőivel.
- Felfedező. A Databricks-munkaterületről elérhető Szolgáltatástár felhasználói felülete lehetővé teszi a meglévő funkciók keresését és keresését.
- Lineage. Amikor szolgáltatástáblát hoz létre az Azure Databricksben, a szolgáltatástábla létrehozásához használt adatforrások mentése és akadálymentesítése történik. A funkciótáblák minden egyes funkciója esetében elérheti a szolgáltatást használó modelleket, jegyzetfüzeteket, feladatokat és végpontokat.
- Integráció a modell pontozásával és kiszolgálásával. Amikor a Feature Store funkcióival tanít be egy modellt, a modell szolgáltatás-metaadatokkal van csomagolva. Ha a modellt kötegelt pontozáshoz vagy online következtetéshez használja, az automatikusan lekéri a funkciókat a Funkciótárból. A hívónak nem kell tudnia róluk, és nem kell logikát használnia az új adatok pontozásához szükséges funkciók kereséséhez vagy összekapcsolásához. Ez sokkal egyszerűbbé teszi a modell üzembe helyezését és frissítéseit.
- Időponthoz kötött keresések. A Funkciótár támogatja az idősorokat és az eseményalapú használati eseteket, amelyek pontos pontosságot igényelnek.
Funkciófejlesztés a Unity Katalógusban
A Databricks Runtime 13.3 LTS és újabb verziók esetén, ha a munkaterület engedélyezve van a Unity Cataloghoz, a Unity Catalog lesz a funkciótárolója. A Unity Katalógusban bármely Delta- vagy Delta Live-táblát használhat elsődleges kulccsal a modell betanításához vagy következtetéséhez. A Unity Catalog funkciófelderítést, szabályozást, vonalvezetést és munkaterületek közötti hozzáférést biztosít.
Hogyan működik a Databricks feature Store?
A Jellemzőtárat használó tipikus gépi tanulási munkafolyamat az alábbi elérési utat követi:
- Írjon kódot a nyers adatok funkciókká alakításához, és hozzon létre egy Spark DataFrame-et, amely tartalmazza a kívánt funkciókat.
- A Unity Cataloghoz engedélyezett munkaterületek esetében írja meg a DataFrame-et funkciótáblaként a Unity Catalogban. Ha a munkaterület nincs engedélyezve a Unity Catalogban, írja be a DataFrame-et szolgáltatástáblaként a Munkaterület szolgáltatástárba.
- Modell betanítása a funkciótár funkcióival. Ha ezt teszi, a modell tárolja a betanításhoz használt funkciók specifikációit. Amikor a modellt következtetésre használják, automatikusan összekapcsolja a megfelelő funkciótáblák funkcióit.
- Modell regisztrálása a Modellregisztrációs adatbázisban.
Mostantól a modell használatával előrejelzéseket készíthet az új adatokról.
Köteghasználati esetek esetén a modell automatikusan lekéri a szükséges funkciókat a Feature Store-ból.
A használati esetek valós idejű kiszolgálásához tegye közzé a funkciókat egy online táblában. Harmadik féltől származó online áruházak is támogatottak. Tekintse meg a külső online áruházakat.
A következtetési időpontban a modell beolvassa az előre kiszámított funkciókat az online áruházból, és összekapcsolja őket az ügyfélkérésben megadott adatokkal a végpontot kiszolgáló modellhez.
A Funkciótár használatának megkezdése
A Funkciótár használatának megkezdéséhez tekintse meg az alábbi cikkeket:
- Próbálja ki az egyik példajegyzetfüzetet , amely a funkciótár képességeit szemlélteti.
- Tekintse meg a Feature Store Python API referenciaanyagát.
- Ismerje meg a feature Store-beli betanítási modelleket.
- További információ a Szolgáltatásfejlesztésről a Unity Catalogban.
- További információ a munkaterület funkciótárolójáról.
- Idősoros funkciótáblák és időponthoz kötött keresések használatával lekérheti a legújabb funkcióértékeket a modell betanításához vagy pontozásához.
- Megtudhatja, hogyan tehet közzé funkciókat online áruházakban vagy online táblákban valós idejű kiszolgáláshoz és automatikus funkciókereséshez.
- Ismerje meg a szolgáltatás-kiszolgálást, amely alacsony késéssel teszi elérhetővé a Databricks platform funkcióit a Databricksen kívül üzembe helyezett modellek vagy alkalmazások számára.
Ha funkciófejlesztést használ a Unity Catalogban, a Unity Catalog gondoskodik a funkciótáblák munkaterületek közötti megosztásáról, és a Unity Catalog-jogosultságokkal szabályozhatja a funkciótáblákhoz való hozzáférést. A következő hivatkozások csak a Munkaterület szolgáltatástárolóhoz tartoznak:
- Funkciótáblák megosztása munkaterületeken.
- A funkciótáblákhoz való hozzáférés szabályozása.
Támogatott adattípusok
A Unity Catalog és a Workspace Feature Store szolgáltatásfejlesztése a következő PySpark-adattípusokat támogatja:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]
[1] BinaryType
, DecimalType
és MapType
a Unity Catalog és a Workspace Feature Store 0.3.5-ös vagy újabb verziójában is támogatott.
A fent felsorolt adattípusok támogatják a gépi tanulási alkalmazásokban gyakran használt funkciótípusokat. Példa:
- A sűrű vektorokat, tenzorokat és beágyazásokat
ArrayType
a következőképpen tárolhatja. - A ritka vektorokat, tenzorokat és beágyazásokat
MapType
a következőképpen tárolhatja. - A szöveget a következőképpen
StringType
tárolhatja: .
Az online áruházakban való közzétételkor a ArrayType
MapType
szolgáltatások JSON formátumban vannak tárolva.
A Szolgáltatástár felhasználói felülete metaadatokat jelenít meg a funkciók adattípusainál:
További információ
A Funkciótár használatának ajánlott eljárásaival kapcsolatos további információkért töltse le az Átfogó útmutató a funkciótárakhoz című témakört.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: