1. oktatóanyag: Szolgáltatáskészlet fejlesztése és regisztrálása kezelt funkciótár

Cikk
12/05/2023

Ez az oktatóanyag-sorozat bemutatja, hogyan integrálhatók zökkenőmentesen a funkciók a gépi tanulási életciklus minden fázisában: prototípus-tervezés, betanítás és üzembe helyezés.

Az Azure Machine Tanulás kezelt funkciótár segítségével felderítheti, létrehozhatja és üzembe helyezheti a funkciókat. A gépi tanulás életciklusa egy prototípuskészítési fázist tartalmaz, ahol különböző funkciókkal kísérletezhet. Ez egy üzemeltetési fázist is magában foglal, amelyben a modellek üzembe helyezése és a következtetési lépések a funkcióadatok kereséséhez szükségesek. A funkciók a gépi tanulási életciklus kötőszöveteként szolgálnak. A kezelt funkciótár alapfogalmaival kapcsolatos további információkért lásd: Mi az kezelt funkciótár? és a kezelt funkciótár legfelső szintű entitásainak ismertetése.

Ez az oktatóanyag bemutatja, hogyan hozhat létre szolgáltatáskészlet-specifikációt egyéni átalakításokkal. Ezt a funkciókészletet használja a betanítási adatok létrehozásához, a materializálás engedélyezéséhez és a visszatöltés végrehajtásához. A materializálás kiszámítja egy funkcióablak funkcióértékeit, majd ezeket az értékeket egy materializálási tárolóban tárolja. Ezután minden funkció-lekérdezés használhatja ezeket az értékeket a materializálási tárolóból.

Materializálás nélkül a funkciókészlet-lekérdezés menet közben alkalmazza az átalakításokat a forrásra, hogy kiszámítsa a szolgáltatásokat, mielőtt visszaadja az értékeket. Ez a folyamat jól működik a prototípus-készítéshez. Éles környezetben végzett betanítási és következtetési műveletek esetén azonban azt javasoljuk, hogy a nagyobb megbízhatóság és rendelkezésre állás érdekében a funkciók megvalósuljon.

Ez az oktatóanyag az kezelt funkciótár oktatóanyag-sorozat első része. Itt megtudhatja, hogyan:

Hozzon létre egy új, minimális funkciótár-erőforrást.
Szolgáltatáskészlet fejlesztése és helyi tesztelése funkcióátalakítási képességgel.
Szolgáltatástár-entitás regisztrálása a funkciótárolóban.
Regisztrálja a szolgáltatástárban kifejlesztett szolgáltatáskészletet.
Hozzon létre egy minta betanítási DataFrame-et a létrehozott funkciók használatával.
Engedélyezze az offline materializálást a szolgáltatáskészleteken, és töltse ki a funkcióadatokat.

Ez az oktatóanyag-sorozat két számmal rendelkezik:

A csak SDK-s pálya csak Python SDK-kat használ. Válassza ezt a pályát tiszta, Python-alapú fejlesztéshez és üzembe helyezéshez.
Az SDK és a CLI-nyomkövetés a Python SDK-t használja a szolgáltatáskészletek fejlesztéséhez és teszteléséhez, és a PARANCSSOR-t használja CRUD-műveletekhez (létrehozás, olvasás, frissítés és törlés). Ez a pálya a folyamatos integráció és a folyamatos teljesítés (CI/CD) vagy a GitOps-forgatókönyvekben hasznos, ahol a CLI/YAML van előnyben.

Előfeltételek

Mielőtt folytatná ezt az oktatóanyagot, ügyeljen az alábbi előfeltételekre:

Egy Azure Machine Learning-munkaterület. A munkaterület létrehozásával kapcsolatos további információkért tekintse meg a munkaterület erőforrásainak létrehozását ismertető rövid útmutatót.
A felhasználói fiók tulajdonosi szerepköre annak az erőforráscsoportnak, amelyben a szolgáltatástároló létrejön.

Ha az oktatóanyaghoz új erőforráscsoportot használ, az erőforráscsoport törlésével egyszerűen törölheti az összes erőforrást.

A jegyzetfüzet-környezet előkészítése

Ez az oktatóanyag egy Azure Machine Tanulás Spark-jegyzetfüzetet használ a fejlesztéshez.

Az Azure Machine Tanulás studiokörnyezetben válassza a Jegyzetfüzetek lehetőséget a bal oldali panelen, majd válassza a Minták lapot.
Keresse meg a featurestore_sample könyvtárat (válassza a Samples>SDK v2>sdk>Python>featurestore_sample), majd válassza a Klónozás lehetőséget.
Megnyílik a Célkönyvtár kiválasztása panel. Válassza ki a Felhasználók könyvtárat, majd válassza ki a felhasználónevet, majd végül válassza a Klónozás lehetőséget.
A jegyzetfüzet-környezet konfigurálásához fel kell töltenie a conda.yml fájlt:
1. Válassza a Jegyzetfüzetek lehetőséget a bal oldali panelen, majd válassza a Fájlok lapot.
2. Keresse meg az env könyvtárat (válassza a Felhasználók>your_user_name featurestore_sample>>projekt>env) lehetőséget, majd válassza ki a conda.yml fájlt.
3. Válassza a Letöltés lehetőséget.
1. Válassza a Kiszolgáló nélküli Spark Compute lehetőséget a felső navigációs Compute legördülő listában. Ez a művelet egy-két percet is igénybe vehet. Várjon, amíg a felső állapotsoron megjelenik a Konfigurálás munkamenet.
2. Válassza a Munkamenet konfigurálása lehetőséget a felső állapotsoron.
3. Válassza ki a Python-csomagokat.
4. Válassza a Conda-fájlok feltöltése lehetőséget.
5. Válassza ki a conda.yml helyi eszközön letöltött fájlt.
6. (Nem kötelező) Növelje a munkamenet időtúllépését (percek alatt üresjárati időt) a kiszolgáló nélküli Spark-fürt indítási idejének csökkentése érdekében.
Az Azure Machine Tanulás környezetben nyissa meg a jegyzetfüzetet, majd válassza a Munkamenet konfigurálása lehetőséget.
A Munkamenet konfigurálása panelen válassza ki a Python-csomagokat.
Töltse fel a Conda-fájlt:
1. A Python-csomagok lapon válassza a Conda-fájl feltöltése lehetőséget.
2. Keresse meg a Conda-fájlt üzemeltető könyvtárat.
3. Válassza a conda.yml, majd a Megnyitás lehetőséget.
Válassza az Alkalmazás lehetőséget.

A Spark-munkamenet indítása

# Run this cell to start the spark session (any code block will start the session ). This can take around 10 mins.
print("start spark session")

A minták gyökérkönyvtárának beállítása

import os

# Please update <your_user_alias> below (or any custom directory you uploaded the samples to).
# You can find the name from the directory structure in the left navigation panel.
root_dir = "./Users/<your_user_alias>/featurestore_sample"

if os.path.isdir(root_dir):
    print("The folder exists.")
else:
    print("The folder does not exist. Please create or fix the path")

Nem alkalmazható.

Telepítse az Azure Machine Tanulás CLI-bővítményt.

# Install AzureML CLI extension
!az extension add --name ml

Hitelesítésére.
```
# Authenticate
!az login
```

Állítsa be az alapértelmezett előfizetést.

# Set default subscription
import os

subscription_id = os.environ["AZUREML_ARM_SUBSCRIPTION"]

!az account set -s $subscription_id

Feljegyzés

Egy szolgáltatástár használatával újra felhasználhatja a különböző projektek funkcióit. Egy projekt-munkaterületet (egy Azure Machine Tanulás-munkaterületet) használ a következtetési modellek betanításához, kihasználva a funkciótárolók funkcióit. Számos projekt-munkaterület megoszthatja és újra felhasználhatja ugyanazt a funkciótárolót.

SDK-szám
SDK és CLI-pálya

Ez az oktatóanyag két SDK-t használ:

A CRUD SDK szolgáltatástárolója

Ugyanazt MLClient a (csomagnevetazure-ai-ml) SDK-t használja, amelyet az Azure Machine Tanulás-munkaterületen használ. A szolgáltatástár munkaterület-típusként van implementálva. Ennek eredményeképpen ez az SDK a CRUD-műveletekhez használható funkciótárolókhoz, funkciókészletekhez és funkciótár-entitásokhoz.
Szolgáltatástár alapszintű SDK

Ez az SDK (azureml-featurestore) funkciókészletek fejlesztésére és felhasználására szolgál. Az oktatóanyag későbbi lépései az alábbi műveleteket ismertetik:
- Szolgáltatáskészlet-specifikáció fejlesztése.
- Funkcióadatok lekérése.
- Listázhat vagy lekérhet egy regisztrált funkciókészletet.
- Szolgáltatáslekérési specifikációk létrehozása és feloldása.
- Betanítási és következtetési adatok létrehozása időponthoz kötött illesztések használatával.

Ez az oktatóanyag nem igényli az SDK-k explicit telepítését, mivel a korábbi conda.yml utasítások ezt a lépést ismertetik.

Ez az oktatóanyag a szolgáltatástároló alapvető SDK-ját és a PARANCSSOR-t használja a CRUD-műveletekhez. A Python SDK-t csak a funkciókészletek fejlesztéséhez és teszteléséhez használja. Ez a megközelítés gitOps- vagy CI-/CD-forgatókönyvekben hasznos, ahol a CLI/YAML van előnyben.

Az alábbiakban általános irányelveket talál:

Használja a parancssori felületet a CRUD-műveletekhez funkciótárolókon, szolgáltatáskészleteken és szolgáltatástár-entitásokon.
A funkciótároló alapvető SDK (azureml-featurestore) a funkciókészletek fejlesztésére és felhasználására szolgál. Ez az oktatóanyag a következő műveleteket ismerteti:
- Regisztrált funkciókészlet listázása vagy lekérése
- Szolgáltatáslekérési specifikáció létrehozása vagy feloldása
- Szolgáltatáskészlet-definíció végrehajtása Spark DataFrame létrehozásához
- Betanítás létrehozása időponthoz kötött illesztések használatával

Az oktatóanyagnak nincs szüksége az erőforrások explicit telepítésére, mert az utasítások ezekre a lépésekre vonatkoznak. A conda.yml fájl egy korábbi lépésben tartalmazza őket.

Minimális funkciótároló létrehozása

Adja meg a szolgáltatástár paramétereit, beleértve a nevet, a helyet és az egyéb értékeket.

# We use the subscription, resource group, region of this active project workspace.
# You can optionally replace them to create the resources in a different subsciprtion/resource group, or use existing resources.
import os

featurestore_name = "<FEATURESTORE_NAME>"
featurestore_location = "eastus"
featurestore_subscription_id = os.environ["AZUREML_ARM_SUBSCRIPTION"]
featurestore_resource_group_name = os.environ["AZUREML_ARM_RESOURCEGROUP"]

Hozza létre a szolgáltatástárolót.

SDK-szám
SDK és CLI-pálya

from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    FeatureStore,
    FeatureStoreEntity,
    FeatureSet,
)
from azure.ai.ml.identity import AzureMLOnBehalfOfCredential

ml_client = MLClient(
    AzureMLOnBehalfOfCredential(),
    subscription_id=featurestore_subscription_id,
    resource_group_name=featurestore_resource_group_name,
)


fs = FeatureStore(name=featurestore_name, location=featurestore_location)
# wait for feature store creation
fs_poller = ml_client.feature_stores.begin_create(fs)
print(fs_poller.result())

!az ml feature-store create --subscription $featurestore_subscription_id --resource-group $featurestore_resource_group_name --location $featurestore_location --name $featurestore_name

Feljegyzés

A szolgáltatástároló alapértelmezett blobtárolója egy ADLS Gen2-tároló.
A szolgáltatástárolók mindig offline materializációs tárolóval és felhasználó által hozzárendelt felügyelt identitással (UAI) jönnek létre.
Ha a szolgáltatástároló paraméterekkel offline_store=None és materialization_identity=None (alapértelmezett értékekkel) jön létre, akkor a rendszer végrehajtja ezt a beállítást:
- Egy Azure Data Lake Storage Gen 2 (ADLS Gen2) tároló jön létre offline tárolóként.
- A rendszer létrehoz és hozzárendel egy UAI-t a funkciótárolóhoz a materializálási identitásként.
- A szükséges szerepköralapú hozzáférés-vezérlési (RBAC) engedélyek az offline áruház UAI-jához vannak rendelve.
A paraméter definiálásával offline_store egy meglévő ADLS Gen2-tároló is használható offline tárolóként. Offline materialization-tárolók esetén csak az ADLS Gen2-tárolók támogatottak.
Egy meglévő UAI paraméter definiálásával materialization_identity is megadható. A szükséges RBAC-engedélyek az offline áruház UAI-jához vannak rendelve a funkciótár létrehozása során.

Ez a kódminta egy felhasználó által definiált offline_store és materialization_identity paraméterekkel rendelkező szolgáltatástároló létrehozását mutatja be.

   import os
   from azure.ai.ml import MLClient
   from azure.ai.ml.identity import AzureMLOnBehalfOfCredential
   from azure.ai.ml.entities import (
      ManagedIdentityConfiguration,
      FeatureStore,
      MaterializationStore,
   )
   from azure.mgmt.msi import ManagedServiceIdentityClient

   # Get an existing offline store
   storage_subscription_id = "<OFFLINE_STORAGE_SUBSCRIPTION_ID>"
   storage_resource_group_name = "<OFFLINE_STORAGE_RESOURCE_GROUP>"
   storage_account_name = "<OFFLINE_STORAGE_ACCOUNT_NAME>"
   storage_file_system_name = "<OFFLINE_STORAGE_CONTAINER_NAME>"

   # Get ADLS Gen2 container ARM ID
   gen2_container_arm_id = "/subscriptions/{sub_id}/resourceGroups/{rg}/providers/Microsoft.Storage/storageAccounts/{account}/blobServices/default/containers/{container}".format(
      sub_id=storage_subscription_id,
      rg=storage_resource_group_name,
      account=storage_account_name,
      container=storage_file_system_name,
   )

   offline_store = MaterializationStore(
      type="azure_data_lake_gen2",
      target=gen2_container_arm_id,
   )

   # Get an existing UAI
   uai_subscription_id = "<UAI_SUBSCRIPTION_ID>"
   uai_resource_group_name = "<UAI_RESOURCE_GROUP>"
   uai_name = "<FEATURE_STORE_UAI_NAME>"

   msi_client = ManagedServiceIdentityClient(
      AzureMLOnBehalfOfCredential(), uai_subscription_id
   )

   managed_identity = msi_client.user_assigned_identities.get(
      uai_resource_group_name, uai_name
   )

   # Get UAI information
   uai_principal_id = managed_identity.principal_id
   uai_client_id = managed_identity.client_id
   uai_arm_id = managed_identity.id

   materialization_identity1 = ManagedIdentityConfiguration(
      client_id=uai_client_id, principal_id=uai_principal_id, resource_id=uai_arm_id
   )

   # Create a feature store
   featurestore_name = "<FEATURE_STORE_NAME>"
   featurestore_location = "<AZURE_REGION>"
   featurestore_subscription_id = os.environ["AZUREML_ARM_SUBSCRIPTION"]
   featurestore_resource_group_name = os.environ["AZUREML_ARM_RESOURCEGROUP"]

   ml_client = MLClient(
      AzureMLOnBehalfOfCredential(),
      subscription_id=featurestore_subscription_id,
      resource_group_name=featurestore_resource_group_name,
   )

   # Use existing ADLS Gen2 container and UAI
   fs = FeatureStore(
      name=featurestore_name,
      location=featurestore_location,
      offline_store=offline_store,
      materialization_identity=materialization_identity1,
   )

   fs_poller = ml_client.feature_stores.begin_update(fs)

   print(fs_poller.result())

Az Azure Machine Tanulás szolgáltatástároló alapvető SDK-ügyfélének inicializálása.

Az oktatóanyag korábbi részében leírtak szerint a funkciótároló alapvető SDK-ügyfelet a funkciók fejlesztésére és felhasználására használják.

# feature store client
from azureml.featurestore import FeatureStoreClient
from azure.ai.ml.identity import AzureMLOnBehalfOfCredential

featurestore = FeatureStoreClient(
    credential=AzureMLOnBehalfOfCredential(),
    subscription_id=featurestore_subscription_id,
    resource_group_name=featurestore_resource_group_name,
    name=featurestore_name,
)

Adja meg az "Azure Machine Tanulás adattudós" szerepkört a szolgáltatástárban a felhasználói identitásnak. Szerezze be a Microsoft Entra objektumazonosító értékét az Azure Portalról a felhasználói objektumazonosító megkeresése című szakaszban leírtak szerint.

Rendelje hozzá az AzureML adattudós szerepkört a felhasználói identitáshoz, hogy erőforrásokat hozhasson létre a szolgáltatástár-munkaterületen. Az engedélyek propagálásához szükség lehet egy kis időre.

További információ a hozzáférés-vezérlésről: Hozzáférés-vezérlés kezelése kezelt funkciótár.
```
your_aad_objectid = "<USER_AAD_OBJECTID>"

!az role assignment create --role "AzureML Data Scientist" --assignee-object-id $your_aad_objectid --assignee-principal-type User --scope $feature_store_arm_id
```

Szolgáltatáskészlet prototípusa és fejlesztése

Az alábbi lépésekben létrehoz egy olyan funkciókészletet, amelynek neve transactions összesítőablak-alapú funkciókkal rendelkezik:

Ismerkedjen meg a transactions forrásadatokkal.

Ez a jegyzetfüzet nyilvánosan elérhető blobtárolóban tárolt mintaadatokat használ. Csak illesztőprogramon keresztül olvasható be a wasbs Sparkba. Amikor saját forrásadatokkal hoz létre szolgáltatáskészleteket, egy Azure Data Lake Storage Gen2-fiókban tárolja őket, és használjon egy illesztőprogramot abfss az adatútvonalon.

# remove the "." in the roor directory path as we need to generate absolute path to read from spark
transactions_source_data_path = "wasbs://data@azuremlexampledata.blob.core.windows.net/feature-store-prp/datasources/transactions-source/*.parquet"
transactions_src_df = spark.read.parquet(transactions_source_data_path)

display(transactions_src_df.head(5))
# Note: display(training_df.head(5)) displays the timestamp column in a different format. You can can call transactions_src_df.show() to see correctly formatted value

A funkciókészlet helyi fejlesztése.

A szolgáltatáskészlet-specifikációk a helyileg fejleszthető és tesztelhető funkciókészletek önálló definíciói. Itt hozza létre ezeket a gördülőablak-összesítő funkciókat:

transactions three-day count
transactions amount three-day sum
transactions amount three-day avg
transactions seven-day count
transactions amount seven-day sum
transactions amount seven-day avg

Tekintse át a funkcióátalakítási kódfájlt: featurestore/featuresets/transactions/transformation_code/transaction_transform.py. Figyelje meg a funkciókhoz definiált gördülő összesítést. Ez egy Spark-transzformátor.

A funkciókészletről és az átalakításokról további információt a Mi kezelt funkciótár? című témakörben talál.

from azureml.featurestore import create_feature_set_spec
from azureml.featurestore.contracts import (
    DateTimeOffset,
    TransformationCode,
    Column,
    ColumnType,
    SourceType,
    TimestampColumn,
)
from azureml.featurestore.feature_source import ParquetFeatureSource

transactions_featureset_code_path = (
    root_dir + "/featurestore/featuresets/transactions/transformation_code"
)

transactions_featureset_spec = create_feature_set_spec(
    source=ParquetFeatureSource(
        path="wasbs://data@azuremlexampledata.blob.core.windows.net/feature-store-prp/datasources/transactions-source/*.parquet",
        timestamp_column=TimestampColumn(name="timestamp"),
        source_delay=DateTimeOffset(days=0, hours=0, minutes=20),
    ),
    feature_transformation=TransformationCode(
        path=transactions_featureset_code_path,
        transformer_class="transaction_transform.TransactionFeatureTransformer",
    ),
    index_columns=[Column(name="accountID", type=ColumnType.string)],
    source_lookback=DateTimeOffset(days=7, hours=0, minutes=0),
    temporal_join_lookback=DateTimeOffset(days=1, hours=0, minutes=0),
    infer_schema=True,
)

Exportálás funkciókészlet-specifikációként.

Ha regisztrálni szeretné a funkciókészlet specifikációját a szolgáltatástárolóban, ezt a specifikációt egy adott formátumban kell mentenie.

Tekintse át a létrehozott transactions funkciókészlet specifikációját. Nyissa meg ezt a fájlt a fájlfáról a következő specifikáció megtekintéséhez: featurestore/featuresets/accounts/spec/FeaturesetSpec.yaml.

A specifikáció a következő elemeket tartalmazza:
- source: Egy tárolási erőforrásra mutató hivatkozás. Ebben az esetben ez egy Blob Storage-erőforrás parquet-fájlja.
- features: A funkciók és adattípusaik listája. Ha átalakítási kódot ad meg, a kódnak olyan DataFrame-et kell visszaadnia, amely megfelel a funkcióknak és az adattípusoknak.
- index_columns: A funkciókészlet értékeinek eléréséhez szükséges illesztőkulcsok.
A specifikációval kapcsolatos további információkért tekintse meg a kezelt funkciótár és a CLI (v2) szolgáltatáskészlet YAML-sémájának legfelső szintű entitásait ismertető témakört .

A funkciókészlet specifikációjának megőrzése egy másik előnyt is kínál: a funkciókészlet specifikációja szabályozható forrásként.
```
import os

# Create a new folder to dump the feature set specification.
transactions_featureset_spec_folder = (
    root_dir + "/featurestore/featuresets/transactions/spec"
)

# Check if the folder exists, create one if it does not exist.
if not os.path.exists(transactions_featureset_spec_folder):
    os.makedirs(transactions_featureset_spec_folder)

transactions_featureset_spec.dump(transactions_featureset_spec_folder, overwrite=True)
```

Szolgáltatástár-entitás regisztrálása

Ajánlott eljárásként az entitások az azonos logikai entitásokat használó funkciókészletekben is érvényesítik ugyanazt az illesztéskulcs-definíciót. Az entitások közé tartoznak például a fiókok és az ügyfelek. Az entitások általában egyszer jönnek létre, majd újra felhasználhatók a funkciókészletek között. További információ: A kezelt funkciótár legfelső szintű entitásainak ismertetése.

SDK-szám
SDK és CLI-pálya

Inicializálja a szolgáltatástároló CRUD-ügyfelet.

Az oktatóanyag korábbi részében leírtak szerint funkciótároló-objektumok létrehozására, MLClient olvasására, frissítésére és törlésére szolgál. Az itt látható jegyzetfüzetkódcella-minta egy korábbi lépésben létrehozott szolgáltatástárolóra keres. Itt nem használhatja újra ugyanazt ml_client az értéket, amelyet az oktatóanyag korábbi részében használt, mivel az erőforráscsoport szintjén van hatóköre. A funkciótárolók létrehozásának előfeltétele a megfelelő hatókörkezelés.

Ebben a kódmintában az ügyfél hatóköre a szolgáltatástár szintjén van.
```
# MLClient for feature store.
fs_client = MLClient(
    AzureMLOnBehalfOfCredential(),
    featurestore_subscription_id,
    featurestore_resource_group_name,
    featurestore_name,
)
```

Regisztrálja az entitást account a funkciótárolóban.

Hozzon létre egy entitást account , amely rendelkezik az illesztőkulcs accountID típusával string.

from azure.ai.ml.entities import DataColumn, DataColumnType

account_entity_config = FeatureStoreEntity(
    name="account",
    version="1",
    index_columns=[DataColumn(name="accountID", type=DataColumnType.STRING)],
    stage="Development",
    description="This entity represents user account index key accountID.",
    tags={"data_typ": "nonPII"},
)

poller = fs_client.feature_store_entities.begin_create_or_update(account_entity_config)
print(poller.result())

Regisztrálja az entitást account a funkciótárolóban.

Hozzon létre egy entitást account , amely rendelkezik az illesztőkulcs accountID típusával string.

account_entity_path = root_dir + "/featurestore/entities/account.yaml"
!az ml feature-store-entity create --file $account_entity_path --resource-group $featurestore_resource_group_name --feature-store-name $featurestore_name

A tranzakciós funkciókészlet regisztrálása a funkciótárolóban

Ezzel a kóddal regisztrálhat egy funkciókészlet-objektumot a funkciótárolóban. Ezután újra felhasználhatja az objektumot, és egyszerűen megoszthatja azt. A szolgáltatáskészlet-objektumok regisztrálása felügyelt képességeket kínál, beleértve a verziószámozást és a materializálást. Az oktatóanyag-sorozat későbbi lépései a felügyelt képességekre vonatkoznak.

SDK-szám
SDK és CLI-pálya

from azure.ai.ml.entities import FeatureSetSpecification

transaction_fset_config = FeatureSet(
    name="transactions",
    version="1",
    description="7-day and 3-day rolling aggregation of transactions featureset",
    entities=[f"azureml:account:1"],
    stage="Development",
    specification=FeatureSetSpecification(path=transactions_featureset_spec_folder),
    tags={"data_type": "nonPII"},
)

poller = fs_client.feature_sets.begin_create_or_update(transaction_fset_config)
print(poller.result())

account_featureset_path = (
    root_dir + "/featurestore/featuresets/transactions/featureset_asset.yaml"
)
!az ml feature-set create --file $account_featureset_path --resource-group $featurestore_resource_group_name --feature-store-name $featurestore_name

A funkciótár felhasználói felületének megismerése

A funkciótárolók létrehozása és frissítései csak az SDK-val és a parancssori felülettel történhetnek. A felhasználói felületen kereshet vagy tallózhat a funkciótárban:

Nyissa meg az Azure Machine Tanulás globális kezdőlapját.
Válassza ki a funkciótárolókat a bal oldali panelen.
Az akadálymentes funkciók listájában válassza ki az oktatóanyag korábbi részében létrehozott szolgáltatástárat.

A Storage Blob-adatolvasó szerepkör hozzáférésének biztosítása a felhasználói fiókhoz az offline áruházban

A Storage Blob Data Reader szerepkört hozzá kell rendelni a felhasználói fiókjához az offline áruházban. Ez biztosítja, hogy a felhasználói fiók beolvassa a materializált funkciók adatait az offline materializálási tárolóból.

SDK-szám
SDK és CLI-pálya

Szerezze be a Microsoft Entra objektumazonosító értékét az Azure Portalról a felhasználói objektumazonosító megkeresése című szakaszban leírtak szerint.

Az offline materializációs tárolóval kapcsolatos információk a Funkciótár felhasználói felületén található Funkciótár áttekintési oldaláról szerezhető be. A tárfiók előfizetés-azonosítójának, a tárfiók erőforráscsoport-nevének és a tárfiók nevének értékeit az Offline materializálási tár kártyán találja.

További információ a hozzáférés-vezérlésről: Hozzáférés-vezérlés kezelése kezelt funkciótár.

Hajtsa végre ezt a kódcellát a szerepkör-hozzárendeléshez. Az engedélyek propagálásához szükség lehet egy kis időre.

# This utility function is created for ease of use in the docs tutorials. It uses standard azure API's.
# You can optionally inspect it `featurestore/setup/setup_storage_uai.py`.
import sys

sys.path.insert(0, root_dir + "/featurestore/setup")
from setup_storage_uai import grant_user_aad_storage_data_reader_role

your_aad_objectid = "<USER_AAD_OBJECTID>"
storage_subscription_id = "<SUBSCRIPTION_ID>"
storage_resource_group_name = "<RESOURCE_GROUP>"
storage_account_name = "<STORAGE_ACCOUNT_NAME>"

grant_user_aad_storage_data_reader_role(
    AzureMLOnBehalfOfCredential(),
    your_aad_objectid,
    storage_subscription_id,
    storage_resource_group_name,
    storage_account_name,
)

Az offline materializációs tárolóval kapcsolatos információk a Funkciótár felhasználói felületén található Funkciótár áttekintési oldaláról szerezhető be. A tárfiók előfizetés-azonosítójának, a tárfiók erőforráscsoportjának és az offline materializálási tároló tárfiókjának neve értékei az Offline materializálási tár kártyán találhatók.

További információ a hozzáférés-vezérlésről: Hozzáférés-vezérlés kezelése kezelt funkciótár.

Hajtsa végre ezt a kódcellát a szerepkör-hozzárendeléshez. Az engedélyek propagálásához szükség lehet egy kis időre.
```
storage_subscription_id = "<SUBSCRIPTION_ID>"
storage_resource_group_name = "<RESOURCE_GROUP>"
storage_account_name = "<STORAGE_ACCOUNT_NAME>"

# Set the ADLS Gen2 storage account ARM ID
gen2_storage_arm_id = "/subscriptions/{sub_id}/resourceGroups/{rg}/providers/Microsoft.Storage/storageAccounts/{account}".format(
    sub_id=storage_subscription_id,
    rg=storage_resource_group_name,
    account=storage_account_name,
)

print(gen2_storage_arm_id)

!az role assignment create --role "Storage Blob Data Reader" --assignee-object-id $your_aad_objectid --assignee-principal-type User --scope $gen2_storage_arm_id
```

Betanítási dataFrame létrehozása a regisztrált funkciókészlettel

Megfigyelési adatok betöltése.

A megfigyelési adatok általában a betanításhoz és a következtetéshez használt alapvető adatokat foglalják magukban. Ezek az adatok a funkcióadatokkal összekapcsolva hozzák létre a teljes betanítási adaterőforrást.

A megfigyelési adatok az esemény során rögzített adatok. Itt alapvető tranzakciós adatokkal rendelkezik, beleértve a tranzakcióazonosítót, a fiókazonosítót és a tranzakció összegének értékeit. Mivel betanításra használja, hozzáfűzött célváltozóval (is_fraud) is rendelkezik.
```
observation_data_path = "wasbs://data@azuremlexampledata.blob.core.windows.net/feature-store-prp/observation_data/train/*.parquet"
observation_data_df = spark.read.parquet(observation_data_path)
obs_data_timestamp_column = "timestamp"

display(observation_data_df)
# Note: the timestamp column is displayed in a different format. Optionally, you can can call training_df.show() to see correctly formatted value
```

Szerezze be a regisztrált szolgáltatáskészletet, és sorolja fel annak funkcióit.

# Look up the featureset by providing a name and a version.
transactions_featureset = featurestore.feature_sets.get("transactions", "1")
# List its features.
transactions_featureset.features

# Print sample values.
display(transactions_featureset.to_spark_dataframe().head(5))

Válassza ki azokat a funkciókat, amelyek a betanítási adatok részévé válnak. Ezután a funkciótároló SDK-val hozza létre magát a betanítási adatokat.

from azureml.featurestore import get_offline_features

# You can select features in pythonic way.
features = [
    transactions_featureset.get_feature("transaction_amount_7d_sum"),
    transactions_featureset.get_feature("transaction_amount_7d_avg"),
]

# You can also specify features in string form: featureset:version:feature.
more_features = [
    f"transactions:1:transaction_3d_count",
    f"transactions:1:transaction_amount_3d_avg",
]

more_features = featurestore.resolve_feature_uri(more_features)
features.extend(more_features)

# Generate training dataframe by using feature data and observation data.
training_df = get_offline_features(
    features=features,
    observation_data=observation_data_df,
    timestamp_column=obs_data_timestamp_column,
)

# Ignore the message that says feature set is not materialized (materialization is optional). We will enable materialization in the subsequent part of the tutorial.
display(training_df)
# Note: the timestamp column is displayed in a different format. Optionally, you can can call training_df.show() to see correctly formatted value

Az időponthoz kötött illesztés hozzáfűzi a funkciókat a betanítási adatokhoz.

Kapcsolat nélküli materializálás engedélyezése a `transactions` funkciókészleten

Miután engedélyezte a funkciókészletek materializálását, elvégezheti a visszatöltést. Ismétlődő materializálási feladatokat is ütemezhet. További információt a sorozat harmadik oktatóanyagában talál.

SDK-szám
SDK és CLI-pálya

Spark.sql.shuffle.partitions beállítása a yaml-fájlban a funkcióadatok méretének megfelelően

A Spark-konfiguráció spark.sql.shuffle.partitions opcionális paraméter, amely befolyásolhatja a szolgáltatáskészlet offline tárolóba való létrehozásakor (naponta) létrehozott parquet-fájlok számát. Ennek a paraméternek az alapértelmezett értéke 200. Ajánlott eljárásként kerülje a sok kis parquet-fájl létrehozását. Ha az offline funkció lekérése lassúvá válik a funkciókészlet materializálása után, lépjen az offline áruház megfelelő mappájába, és ellenőrizze, hogy a probléma túl sok kis parquetfájlt tartalmaz-e (naponta), és ennek megfelelően állítsa be ennek a paraméternek az értékét.

Feljegyzés

A jegyzetfüzetben használt mintaadatok kicsik. Ezért ez a paraméter a featureset_asset_offline_enabled.yaml fájlban 1 értékre van állítva.

from azure.ai.ml.entities import (
    MaterializationSettings,
    MaterializationComputeResource,
)

transactions_fset_config = fs_client._featuresets.get(name="transactions", version="1")

transactions_fset_config.materialization_settings = MaterializationSettings(
    offline_enabled=True,
    resource=MaterializationComputeResource(instance_type="standard_e8s_v3"),
    spark_configuration={
        "spark.driver.cores": 4,
        "spark.driver.memory": "36g",
        "spark.executor.cores": 4,
        "spark.executor.memory": "36g",
        "spark.executor.instances": 2,
        "spark.sql.shuffle.partitions": 1,
    },
    schedule=None,
)

fs_poller = fs_client.feature_sets.begin_create_or_update(transactions_fset_config)
print(fs_poller.result())

Spark.sql.shuffle.partitions beállítása a yaml-fájlban a funkcióadatok méretének megfelelően

Feljegyzés

A jegyzetfüzetben használt mintaadatok kicsik. Ezért ez a paraméter a featureset_asset_offline_enabled.yaml fájlban 1 értékre van állítva.

transaction_asset_mat_yaml = (
    root_dir
    + "/featurestore/featuresets/transactions/featureset_asset_offline_enabled.yaml"
)

!az ml feature-set update --file $transaction_asset_mat_yaml --resource-group $featurestore_resource_group_name --feature-store-name $featurestore_name

A szolgáltatáskészlet-objektumot YAML-erőforrásként is mentheti.

SDK-szám
SDK és CLI-pálya

## uncomment to run
transactions_fset_config.dump(
    root_dir
    + "/featurestore/featuresets/transactions/featureset_asset_offline_enabled.yaml"
)

A funkciókészlet adatainak visszatöltése `transactions`

A korábban ismertetett módon a materializálás kiszámítja egy funkcióablak funkcióértékeit, és ezeket a kiszámított értékeket egy materializálási tárolóban tárolja. A funkciók materializálása növeli a számított értékek megbízhatóságát és rendelkezésre állását. Az összes funkció-lekérdezés most már a materializálási tároló értékeit használja. Ez a lépés egyszeri feltöltést hajt végre egy 18 hónapos funkcióablakban.

Feljegyzés

Előfordulhat, hogy meg kell határoznia egy háttérbetöltési adatablak értékét. Az ablaknak meg kell egyeznie a betanítási adatok ablakával. Ha például 18 hónapnyi adatot szeretne használni a betanításhoz, 18 hónapig le kell kérnie a funkciókat. Ez azt jelenti, hogy egy 18 hónapos időszakra vissza kell töltenie.

SDK-szám
SDK és CLI-pálya

Ez a kódcella a definiált funkcióablak aktuális állapotának nincs vagy hiányos állapotával materializálja az adatokat.

from datetime import datetime
from azure.ai.ml.entities import DataAvailabilityStatus

st = datetime(2022, 1, 1, 0, 0, 0, 0)
et = datetime(2023, 6, 30, 0, 0, 0, 0)

poller = fs_client.feature_sets.begin_backfill(
    name="transactions",
    version="1",
    feature_window_start_time=st,
    feature_window_end_time=et,
    data_status=[DataAvailabilityStatus.NONE],
)
print(poller.result().job_ids)

# Get the job URL, and stream the job logs.
fs_client.jobs.stream(poller.result().job_ids[0])

Ez a kódcella a definiált funkcióablak aktuális állapotának nincs vagy hiányos állapotával materializálja az adatokat.

feature_window_start_time = "2022-01-01T00:00.000Z"
feature_window_end_time = "2023-06-30T00:00.000Z"

!az ml feature-set backfill --name transactions --version 1 --by-data-status "['None', 'Incomplete']" --feature-window-start-time $feature_window_start_time --feature-window-end-time $feature_window_end_time --feature-store-name $featurestore_name --resource-group $featurestore_resource_group_name

Tipp.

Az timestamp oszlopnak a formátumot kell követnie yyyy-MM-ddTHH:mm:ss.fffZ .
A feature_window_start_time részletesség másodpercre feature_window_end_time korlátozódik. Az objektumban datetime megadott minden ezredmásodperc figyelmen kívül lesz hagyva.
A materializálási feladat csak akkor lesz elküldve, ha a funkcióablak adatai megegyeznek a data_status backfill feladat elküldésekor megadott adatokkal.

Mintaadatok nyomtatása a funkciókészletből. A kimeneti adatok azt mutatják, hogy az adatokat a materializálási tárolóból kérték le. A get_offline_features() metódus lekérte a betanítási és következtetési adatokat. Alapértelmezés szerint a materializálási tárolót is használja.

# Look up the feature set by providing a name and a version and display few records.
transactions_featureset = featurestore.feature_sets.get("transactions", "1")
display(transactions_featureset.to_spark_dataframe().head(5))

Az offline funkciók materializálásának további megismerése

A Materialization-feladatok felhasználói felületén megismerheti egy funkciókészlet funkció materializálási állapotát.

Nyissa meg az Azure Machine Tanulás globális kezdőlapját.
Válassza ki a funkciótárolókat a bal oldali panelen.
Az akadálymentes szolgáltatástárolók listájában válassza ki azt a funkciótárolót, amelyhez a visszatöltést végezte.
Válassza a Materialization jobs (Anyagosítási feladatok ) lapot.

Az adat materializálási állapota lehet
- Kész (zöld)
- Hiányos (piros)
- Függőben (kék)
- Nincs (szürke)
Az adatintervallumok az adatok egybefüggő részét jelölik ugyanazzal az adatmegvalósítási állapottal. A korábbi pillanatképnek például 16 adatintervalluma van az offline materializálási tárolóban.
Az adatok legfeljebb 2000 adatintervallumot tartalmazhatnak. Ha az adatok több mint 2000 adatintervallumot tartalmaznak, hozzon létre egy új funkciókészlet-verziót.
Egyetlen háttérbetöltési feladatban több adatállapot (például ["None", "Incomplete"]) listáját is megadhatja.
A visszatöltés során a rendszer minden olyan adatintervallumhoz új materializálási feladatot küld, amely a megadott funkcióablakba esik.
Ha egy materializálási feladat függőben van, vagy a feladat olyan adatintervallumban fut, amely még nem lett kitöltve, a rendszer nem küld el új feladatot az adott adatintervallumhoz.
Újrapróbálkozott egy sikertelen materializálási feladat.
Feljegyzés

Sikertelen materializálási feladat feladatazonosítójának lekérése:
- Lépjen a Materialization-feladatok felhasználói felületére a funkciókészlethez.
- Válassza ki egy adott feladat megjelenítendő nevét sikertelen állapottal.
- Keresse meg a feladatazonosítót a Feladat áttekintése lapon található Név tulajdonság alatt. A következővel Featurestore-Materialization-kezdődik: .

SDK-szám
SDK és CLI-pálya


poller = fs_client.feature_sets.begin_backfill(
    name="transactions",
    version=version,
    job_id="<JOB_ID_OF_FAILED_MATERIALIZATION_JOB>",
)
print(poller.result().job_ids)

az ml feature-set backfill --by-job-id <JOB_ID_OF_FAILED_MATERIALIZATION_JOB> --name <FEATURE_SET_NAME> --version <VERSION>  --feature-store-name <FEATURE_STORE_NAME> --resource-group <RESOURCE_GROUP>

Offline materialization store frissítése

Ha egy offline materializációs tárolót frissíteni kell a szolgáltatástár szintjén, akkor a funkciótároló összes funkciókészletének le kell tiltania az offline materializációt.
Ha az offline materializálás le van tiltva egy szolgáltatáskészleten, az offline materializálási tárolóban már materializált adatok materializálási állapota alaphelyzetbe áll. Az alaphelyzetbe állítás olyan adatokat jelenít meg, amelyek már használhatatlanná váltak. Az offline materializálás engedélyezése után újra el kell küldenie a materializálási feladatokat.

Ez az oktatóanyag a betanítási adatokat a funkciótároló funkcióival, az engedélyezett materializálással az offline funkciótárolóba építette, és egy visszatöltést hajtott végre. Ezután modellbetanítást fog futtatni ezekkel a funkciókkal.

A fölöslegessé vált elemek eltávolítása

A sorozat ötödik oktatóanyaga az erőforrások törlését ismerteti.

Következő lépések

Tekintse meg a következő oktatóanyagot a sorozatban: Modellek kísérletezése és betanítása funkciók használatával.
További információ a funkciótár fogalmairól és az kezelt funkciótár legfelső szintű entitásairól.
Ismerje meg a kezelt funkciótár identitás- és hozzáférés-vezérlését.
Tekintse meg a kezelt funkciótár hibaelhárítási útmutatójában.
Tekintse meg a YAML-referenciát.

Megosztás a következőn keresztül:

1. oktatóanyag: Szolgáltatáskészlet fejlesztése és regisztrálása kezelt funkciótár

Előfeltételek

A jegyzetfüzet-környezet előkészítése

A Spark-munkamenet indítása

A minták gyökérkönyvtárának beállítása

A parancssori felület beállítása

Minimális funkciótároló létrehozása

Szolgáltatáskészlet prototípusa és fejlesztése

Szolgáltatástár-entitás regisztrálása

A tranzakciós funkciókészlet regisztrálása a funkciótárolóban

A funkciótár felhasználói felületének megismerése

A Storage Blob-adatolvasó szerepkör hozzáférésének biztosítása a felhasználói fiókhoz az offline áruházban

Betanítási dataFrame létrehozása a regisztrált funkciókészlettel

Kapcsolat nélküli materializálás engedélyezése a `transactions` funkciókészleten

Spark.sql.shuffle.partitions beállítása a yaml-fájlban a funkcióadatok méretének megfelelően

Spark.sql.shuffle.partitions beállítása a yaml-fájlban a funkcióadatok méretének megfelelően

A funkciókészlet adatainak visszatöltése `transactions`

Az offline funkciók materializálásának további megismerése

Offline materialization store frissítése

A fölöslegessé vált elemek eltávolítása

Következő lépések

Visszajelzés

Visszajelzés

További források

Megosztás a következőn keresztül:

1. oktatóanyag: Szolgáltatáskészlet fejlesztése és regisztrálása kezelt funkciótár

Előfeltételek

A jegyzetfüzet-környezet előkészítése

A Spark-munkamenet indítása

A minták gyökérkönyvtárának beállítása

A parancssori felület beállítása

Minimális funkciótároló létrehozása

Szolgáltatáskészlet prototípusa és fejlesztése

Szolgáltatástár-entitás regisztrálása

A tranzakciós funkciókészlet regisztrálása a funkciótárolóban

A funkciótár felhasználói felületének megismerése

A Storage Blob-adatolvasó szerepkör hozzáférésének biztosítása a felhasználói fiókhoz az offline áruházban

Betanítási dataFrame létrehozása a regisztrált funkciókészlettel

Kapcsolat nélküli materializálás engedélyezése a transactions funkciókészleten

Spark.sql.shuffle.partitions beállítása a yaml-fájlban a funkcióadatok méretének megfelelően

A funkciókészlet adatainak visszatöltése transactions

Az offline funkciók materializálásának további megismerése

Offline materialization store frissítése

A fölöslegessé vált elemek eltávolítása

Következő lépések

Visszajelzés

Visszajelzés

További források

Kapcsolat nélküli materializálás engedélyezése a `transactions` funkciókészleten

A funkciókészlet adatainak visszatöltése `transactions`