Mi az a szolgáltatástár?

Ez az oldal bemutatja, hogy mi az a szolgáltatástároló, és milyen előnyöket biztosít, valamint a Databricks Feature Store konkrét előnyeit.

A szolgáltatástár egy központosított adattár, amely lehetővé teszi az adatelemzők számára a funkciók keresését és megosztását, valamint biztosítja, hogy a funkcióértékek kiszámításához használt kód a modell betanításához és következtetéséhez is használható legyen.

A gépi tanulás meglévő adatokkal készít egy modellt a jövőbeli eredmények előrejelzéséhez. A nyers adatok szinte minden esetben előfeldolgozást és átalakítást igényelnek, mielőtt felhasználhatók a modell létrehozásához. Ezt a folyamatot funkciófejlesztésnek nevezzük, és ennek a folyamatnak a kimeneteit funkcióknak nevezzük – a modell építőelemei.

A funkciók fejlesztése összetett és időigényes. További bonyodalom, hogy a gépi tanuláshoz funkciószámításokat kell végezni a modell betanításához, majd újra, amikor a modellt használják előrejelzések készítésére. Előfordulhat, hogy az implementációkat nem ugyanaz a csapat végzi, vagy ugyanazt a kódkörnyezetet használja, ami késésekhez és hibákhoz vezethet. Emellett a szervezet különböző csapatai gyakran hasonló funkciókkal rendelkeznek, de előfordulhat, hogy nem ismerik a többi csapat által végzett munkát. A szolgáltatástárolók célja, hogy megoldják ezeket a problémákat.

Miért érdemes a Databricks feature Store-t használni?

A Databricks feature Store teljesen integrálva van az Azure Databricks más összetevőivel.

  • Felfedező. A Databricks-munkaterületről elérhető Szolgáltatástár felhasználói felülete lehetővé teszi a meglévő funkciók keresését és keresését.
  • Lineage. Amikor szolgáltatástáblát hoz létre az Azure Databricksben, a szolgáltatástábla létrehozásához használt adatforrások mentése és akadálymentesítése történik. A funkciótáblák minden egyes funkciója esetében elérheti a szolgáltatást használó modelleket, jegyzetfüzeteket, feladatokat és végpontokat.
  • Integráció a modell pontozásával és kiszolgálásával. Amikor a Feature Store funkcióival tanít be egy modellt, a modell szolgáltatás-metaadatokkal van csomagolva. Ha a modellt kötegelt pontozáshoz vagy online következtetéshez használja, az automatikusan lekéri a funkciókat a Funkciótárból. A hívónak nem kell tudnia róluk, és nem kell logikát használnia az új adatok pontozásához szükséges funkciók kereséséhez vagy összekapcsolásához. Ez sokkal egyszerűbbé teszi a modell üzembe helyezését és frissítéseit.
  • Időponthoz kötött keresések. A Funkciótár támogatja az idősorokat és az eseményalapú használati eseteket, amelyek pontos pontosságot igényelnek.

Funkciófejlesztés a Unity Katalógusban

A Databricks Runtime 13.3 LTS és újabb verziók esetén, ha a munkaterület engedélyezve van a Unity Cataloghoz, a Unity Catalog lesz a funkciótárolója. A Unity Katalógusban bármely Delta- vagy Delta Live-táblát használhat elsődleges kulccsal a modell betanításához vagy következtetéséhez. A Unity Catalog funkciófelderítést, szabályozást, vonalvezetést és munkaterületek közötti hozzáférést biztosít.

Hogyan működik a Databricks feature Store?

A Jellemzőtárat használó tipikus gépi tanulási munkafolyamat az alábbi elérési utat követi:

  1. Írjon kódot a nyers adatok funkciókká alakításához, és hozzon létre egy Spark DataFrame-et, amely tartalmazza a kívánt funkciókat.
  2. A Unity Cataloghoz engedélyezett munkaterületek esetében írja meg a DataFrame-et funkciótáblaként a Unity Catalogban. Ha a munkaterület nincs engedélyezve a Unity Catalogban, írja be a DataFrame-et szolgáltatástáblaként a Munkaterület szolgáltatástárba.
  3. Modell betanítása a funkciótár funkcióival. Ha ezt teszi, a modell tárolja a betanításhoz használt funkciók specifikációit. Amikor a modellt következtetésre használják, automatikusan összekapcsolja a megfelelő funkciótáblák funkcióit.
  4. Modell regisztrálása a Modellregisztrációs adatbázisban.

Mostantól a modell használatával előrejelzéseket készíthet az új adatokról.

Köteghasználati esetek esetén a modell automatikusan lekéri a szükséges funkciókat a Feature Store-ból.

Feature Store-munkafolyamat kötegelt gépi tanulási használati esetekhez.

Valós idejű használati esetek esetén tegye közzé a szolgáltatásokat egy online áruházban, vagy használjon online táblát.

A következtetési időpontban a modell beolvassa az előre kiszámított funkciókat az online áruházból, és összekapcsolja őket az ügyfélkérésben megadott adatokkal a végpontot kiszolgáló modellhez.

Szolgáltatástár folyamat a kiszolgált gépi tanulási modellekhez.

A Funkciótár használatának megkezdése

A Funkciótár használatának megkezdéséhez tekintse meg az alábbi cikkeket:

Ha funkciófejlesztést használ a Unity Catalogban, a Unity Catalog gondoskodik a funkciótáblák munkaterületek közötti megosztásáról, és a Unity Catalog-jogosultságokkal szabályozhatja a funkciótáblákhoz való hozzáférést. A következő hivatkozások csak a Munkaterület szolgáltatástárolóhoz tartoznak:

Támogatott adattípusok

A Unity Catalog és a Workspace Feature Store szolgáltatásfejlesztése a következő PySpark-adattípusokat támogatja:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]

[1] BinaryType, DecimalTypeés MapType a Unity Catalog és a Workspace Feature Store 0.3.5-ös vagy újabb verziójában is támogatott.

A fent felsorolt adattípusok támogatják a gépi tanulási alkalmazásokban gyakran használt funkciótípusokat. Példa:

  • A sűrű vektorokat, tenzorokat és beágyazásokat ArrayTypea következőképpen tárolhatja.
  • A ritka vektorokat, tenzorokat és beágyazásokat MapTypea következőképpen tárolhatja.
  • A szöveget a következőképpen StringTypetárolhatja: .

Az online áruházakban való közzétételkor a ArrayTypeMapType szolgáltatások JSON formátumban vannak tárolva.

A Szolgáltatástár felhasználói felülete metaadatokat jelenít meg a funkciók adattípusainál:

Példa összetett adattípusokra

További információ

A Funkciótár használatának ajánlott eljárásaival kapcsolatos további információkért töltse le az Átfogó útmutató a funkciótárakhoz című témakört.