Integrált vektorizáció implementálása az Azure AI Studióból származó modellek használatával

Cikk
09/01/2024

Fontos

Ez a funkció nyilvános előzetes verzióban érhető el a kiegészítő használati feltételek alatt. A 2024-05-01-preview REST API támogatja ezt a funkciót.

Ebből a cikkből megtudhatja, hogyan érheti el a beágyazási modelleket az Azure AI Studio modellkatalógusában vektorkonverziókhoz az indexelés és az Azure AI Search lekérdezései során.

A munkafolyamat tartalmazza a modell üzembe helyezésének lépéseit. A modellkatalógus az Azure OpenAI, a Cohere, a Facebook és az OpenAI modelljeinek beágyazását tartalmazza. A modell üzembe helyezése az egyes szolgáltatók számlázási struktúrája szerint számlázható.

A modell üzembe helyezése után használhatja az indexelés során integrált vektorizáláshoz, vagy lekérdezésekhez az AI Studio vektorizálójával.

Beágyazási modell üzembe helyezése az Azure AI Studio modellkatalógusából

Nyissa meg az Azure AI Studio modellkatalógusát.
Alkalmazzon egy szűrőt, hogy csak a beágyazási modellek jelenjenek meg. Az Inference tasks (Következtetési feladatok) területen válassza a Beágyazások elemet:
Válassza ki azt a modellt, amellyel vektorizálni szeretné a tartalmat. Ezután válassza az Üzembe helyezés lehetőséget, és válasszon egy üzembe helyezési lehetőséget.
Adja meg a kért adatokat. Válasszon vagy hozzon létre egy új AI-projektet, majd válassza az Üzembe helyezés lehetőséget. Az üzembe helyezés részletei a kiválasztott modelltől függően változnak.
Várja meg, amíg a modell a kiépítési állapot figyelésével befejezi az üzembe helyezést. A "Kiépítés" értékről "Frissítés"-ről "Sikeres" értékre kell változnia. Előfordulhat, hogy néhány percenként a Frissítés lehetőséget kell választania az állapotfrissítés megtekintéséhez.
Másolja ki az URL-címet, az elsődleges kulcsot és a modellazonosítót, és tegye őket félre későbbre. Ezekre az értékekre szükség van a keresési index vektorizáló definíciója és a modell végpontjait indexelés során meghívó képességkészlet esetében.

Szükség esetén módosíthatja a végpontot úgy, hogy a kulcsalapú hitelesítés helyett jogkivonat-hitelesítést használjon. Ha engedélyezi a jogkivonat-hitelesítést, csak az URL-címet és a modellazonosítót kell másolnia, és fel kell jegyeznie, hogy a modell melyik régióban van üzembe helyezve.
Mostantól konfigurálhat egy keresési indexet és indexelőt az üzembe helyezett modell használatára.
- A modell indexelés közbeni használatához tekintse meg az integrált vektorizálás engedélyezésének lépéseit. Ügyeljen arra, hogy az Azure Machine Learning (AML) jártasságot használja, és ne az AzureOpenAIEmbedding képességet. A következő szakasz a képességkonfigurációt ismerteti.
- Ha a modellt vektorizálóként szeretné használni a lekérdezési időpontban, tekintse meg a vektorizáló konfigurálását. Ehhez a lépéshez mindenképpen használja az Azure AI Studio modellkatalógus-vektorizálót .

Minta AML-képesség hasznos adatai

Amikor beágyazási modelleket helyez üzembe az Azure AI Studio modellkatalógusából, az Azure AI Search AML-képességével csatlakozik hozzájuk a számítási feladatok indexeléséhez.

Ez a szakasz az AML-képességdefiníciókat és az indexleképezéseket ismerteti. Olyan minta hasznos adatokat tartalmaz, amelyek már konfigurálva vannak a megfelelő üzembe helyezett végpontok használatára. A hasznos adatok működésével kapcsolatos további technikai részletekért olvassa el a Skill környezetét és a beviteli széljegyzet nyelvét.

Ez az AML-képesség hasznos adatai az AI Studio alábbi modelljeivel működnek:

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

Feltételezi, hogy a szöveg felosztási képességével osztja el a tartalmat, és hogy a vektorizálandó szöveg az /document/pages/* elérési úton van. Ha a szöveg egy másik elérési útról származik, ennek megfelelően frissítse az /document/pages/* elérési útra mutató összes hivatkozást.

Az URI és a kulcs a modell katalógusból való üzembe helyezésekor jön létre. További információ ezekről az értékekről: Nagy nyelvi modellek üzembe helyezése az Azure AI Studióval.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "<YOUR_MODEL_URL_HERE>",
  "key": "<YOUR_MODEL_KEY_HERE>",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/pages/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[['', $(/document/pages/*)]]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "text_features"
    }
  ]
}

Ez az AML-képesség hasznos adatai az AI Studio alábbi modelljeivel működnek:

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336
Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant

Feltételezi, hogy a képek a /document/normalized_images/* beépített képkinyerés engedélyezésével létrehozott elérési útból származnak. Ha a képek egy másik elérési útról származnak, vagy URL-címként vannak tárolva, frissítse az elérési útra mutató összes hivatkozást aszerint /document/normalized_images/* .

Az URI és a kulcs a modell katalógusból való üzembe helyezésekor jön létre. További információ ezekről az értékekről: Nagy nyelvi modellek üzembe helyezése az Azure AI Studióval.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/normalized_images/*",
  "uri": "<YOUR_MODEL_URL_HERE>",
  "key": "<YOUR_MODEL_HERE>",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/normalized_images/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[[$(/document/normalized_images/*/data), '']]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "image_features"
    }
  ]
}

Ez az AML-képesség hasznos adatai az AI Studio alábbi modelljeivel működnek:

Cohere-embed-v3-english
Cohere-embed-v3-többnyelvű

Feltételezi, hogy a SplitSkill használatával osztja el a tartalmat, ezért a vektorizálandó szöveg az /document/pages/* elérési úton van. Ha a szöveg egy másik elérési útról származik, frissítse az elérési útra mutató összes hivatkozást aszerint /document/pages/* .

Hozzá kell adnia az /v1/embed elérési utat az AI Studio üzembe helyezéséből kimásolt URL-cím végéhez. Módosíthatja a , truncate és embedding_types a input_typebemenetek értékeit is, hogy jobban illeszkedjenek a használati esethez. A rendelkezésre álló lehetőségekről a Cohere Embed API-referenciában talál további információt.

Az URI és a kulcs a modell katalógusból való üzembe helyezésekor jön létre. Ezekről az értékekről további információt a Cohere Beágyazási modellek üzembe helyezése az Azure AI Studióval című témakörben talál.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "<YOUR_MODEL_URL_HERE>/v1/embed",
  "key": "<YOUR_MODEL_KEY_HERE>",
  "inputs": [
    {
      "name": "texts",
      "source": "=[$(/document/pages/*)]"
    },
    {
      "name": "input_type",
      "source": "='search_document'"
    },
    {
      "name": "truncate",
      "source": "='NONE'"
    },
    {
      "name": "embedding_types",
      "source": "=['float']"
    }
  ],
  "outputs": [
    {
      "name": "embeddings",
      "targetName": "aml_vector_data"
    }
  ]
}

Emellett a Cohere-modell kimenete nem közvetlenül a beágyazási tömb, hanem egy JSON-objektum, amely tartalmazza azt. Az indexdefinícióval indexProjections outputFieldMappingsvaló megfeleltetéskor a megfelelő kijelölést kell kiválasztania. Íme egy hasznos adatminta indexProjections , amely lehetővé teszi a leképezés implementálását.

Ha a képességdefinícióban egy másikat embedding_types jelölt ki, amelyet módosítania float kell a source választott típus elérési útján.

"indexProjections": {
  "selectors": [
    {
      "targetIndexName": "<YOUR_TARGET_INDEX_NAME_HERE>",
      "parentKeyFieldName": "ParentKey", // Change this to the name of the field in your index definition where the parent key will be stored
      "sourceContext": "/document/pages/*",
      "mappings": [
        {
          "name": "aml_vector", // Change this to the name of the field in your index definition where the Cohere embedding will be stored
          "source": "/document/pages/*/aml_vector_data/float/0"
        }
      ]
    }
  ],
  "parameters": {}
}

Minta AI Studio vektorizáló hasznos adatok

Az AI Studio vektorizáló az AML-képességtől eltérően csak az AI Studio modellkatalógusán keresztül üzembe helyezhető beágyazási modellekre van szabva. A fő különbség az, hogy nem kell aggódnia a kérelem és a válasz hasznos adatai miatt, de meg kell adnia azt modelNamea "Modellazonosítót", amelyet a modell AI Studióban való üzembe helyezése után másolt.

Íme egy minta hasznos adat arról, hogyan konfigurálná a vektorizálót az indexdefiníción az AI Studióból másolt tulajdonságok alapján.

A Cohere-modellek esetében NEM szabad az /v1/embed URL-cím végéhez hozzáadni az elérési utat, mint a szakértelemmel.

"vectorizers": [
    {
        "name": "<YOUR_VECTORIZER_NAME_HERE>",
        "kind": "aml",
        "amlParameters": {
            "uri": "<YOUR_URL_HERE>",
            "key": "<YOUR_PRIMARY_KEY_HERE>",
            "modelName": "<YOUR_MODEL_ID_HERE>"
        },
    }
]

Csatlakozás jogkivonat-hitelesítéssel

Ha nem tudja használni a kulcsalapú hitelesítést, ehelyett konfigurálhatja az AML-készséget és az AI Studio vektoros kapcsolatát a jogkivonat-hitelesítéshez szerepköralapú hozzáférés-vezérléssel az Azure-ban. A keresési szolgáltatásnak rendszer- vagy felhasználó által hozzárendelt felügyelt identitással kell rendelkeznie, és az identitásnak tulajdonosi vagy közreműködői engedélyekkel kell rendelkeznie az AML-projekt munkaterületéhez. Ezután eltávolíthatja a kulcsmezőt a képesség- és vektorizáló-definícióból, és lecserélheti a resourceId mezőre. Ha az AML-projekt és a keresési szolgáltatás különböző régiókban található, adja meg a régió mezőt is.

"uri": "<YOUR_URL_HERE>",
"resourceId": "subscriptions/<YOUR_SUBSCRIPTION_ID_HERE>/resourceGroups/<YOUR_RESOURCE_GROUP_NAME_HERE>/providers/Microsoft.MachineLearningServices/workspaces/<YOUR_AML_WORKSPACE_NAME_HERE>/onlineendpoints/<YOUR_AML_ENDPOINT_NAME_HERE>",
"region": "westus", // Only need if AML project lives in different region from search service

Megosztás a következőn keresztül:

Integrált vektorizáció implementálása az Azure AI Studióból származó modellek használatával

Beágyazási modell üzembe helyezése az Azure AI Studio modellkatalógusából

Minta AML-képesség hasznos adatai

Minta AI Studio vektorizáló hasznos adatok

Csatlakozás jogkivonat-hitelesítéssel

Következő lépések

Visszajelzés

További források