Implementace integrované vektorizace pomocí modelů z Azure AI Studia

Článek
05/21/2024

Důležité

Tato funkce je ve veřejné verzi Preview v rámci dodatečných podmínek použití. Rozhraní REST API verze 2024-05-05-01-Preview tuto funkci podporuje.

V tomto článku se dozvíte, jak získat přístup k modelům vkládání v katalogu modelů Azure AI Studio pro převod vektorů během indexování a dotazů ve službě Azure AI Search.

Pracovní postup zahrnuje kroky nasazení modelu. Katalog modelů zahrnuje vkládání modelů z Azure OpenAI, Cohere, Facebooku a OpenAI. Nasazení modelu je fakturovatelné podle struktury fakturace jednotlivých poskytovatelů.

Po nasazení modelu ho můžete použít k integrované vektorizaci během indexování nebo pomocí vektorizátoru AI Studio pro dotazy.

Nasazení modelu vložení z katalogu modelů Azure AI Studio

Otevřete katalog modelů Azure AI Studio.
Pomocí filtru zobrazíte jenom modely vkládání. V části Úkoly odvozování vyberte Vložit:
Vyberte model, se kterým chcete vektorizovat obsah. Pak vyberte Nasadit a vyberte možnost nasazení.
Vyplňte požadované podrobnosti. Vyberte nebo vytvořte nový projekt AI a pak vyberte Nasadit. Podrobnosti o nasazení se liší v závislosti na modelu, který vyberete.
Počkejte na dokončení nasazení modelu monitorováním stavu zřizování. Mělo by se změnit z "Zřizování" na "Aktualizace" na "Úspěch". Možná budete muset vybrat Aktualizovat každých několik minut, abyste viděli aktualizaci stavu.
Zkopírujte pole URL, primární klíč a ID modelu a nastavte je pro pozdější použití. Tyto hodnoty potřebujete pro definici vektorizátoru v indexu vyhledávání a sadu dovedností, která během indexování volá koncové body modelu.

Volitelně můžete koncový bod změnit tak, aby místo ověřování pomocí klíče používal ověřování pomocí tokenu. Pokud povolíte ověřování pomocí tokenu, stačí zkopírovat adresu URL a ID modelu a také si uvědomit, do které oblasti se model nasadí.
Teď můžete nakonfigurovat index vyhledávání a indexer tak, aby používal nasazený model.
- Pokud chcete model použít při indexování, přečtěte si postup povolení integrované vektorizace. Nezapomeňte použít dovednost Azure Machine Učení (AML) a ne dovednosti AzureOpenAIEmbedding. Další část popisuje konfiguraci dovedností.
- Pokud chcete model použít jako vektorizátor v době dotazu, přečtěte si téma Konfigurace vektorizátoru. Pro tento krok nezapomeňte použít vektorizátor katalogu modelů Azure AI Studio.

Ukázkové datové části dovedností AML

Když nasadíte vložené modely z katalogu modelů Azure AI Studio, připojíte se k nim pomocí dovednosti AML ve službě Azure AI Search pro úlohy indexování.

Tato část popisuje definici dovedností AML a mapování indexů. Zahrnuje ukázkové datové části, které jsou už nakonfigurované tak, aby fungovaly s odpovídajícími nasazenými koncovými body. Další technické podrobnosti o tom, jak tyto datové části fungují, najdete v kontextu dovedností a jazyku pro zadávání poznámek.

Tato datová část dovednosti AML funguje s následujícími modely z AI Studia:

OpenAI-C sada LIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-C sada LIP-Image-Text-Embeddings-ViT-Large-Patch14-336

Předpokládá se, že obsah rozdělíte pomocí dovednosti Rozdělení textu a že text, který se má vektorizovat, je v /document/pages/* cestě. Pokud text pochází z jiné cesty, aktualizujte všechny odkazy na /document/pages/* cestu odpovídajícím způsobem.

Identifikátor URI a klíč se vygenerují při nasazení modelu z katalogu. Další informace o těchto hodnotách najdete v tématu Nasazení velkých jazykových modelů pomocí nástroje Azure AI Studio.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "{YOUR_MODEL_URL_HERE}",
  "key": "{YOUR_MODEL_KEY_HERE}",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/pages/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[['', $(/document/pages/*)]]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "text_features"
    }
  ]
}

Tato datová část dovednosti AML funguje s následujícími modely z AI Studia:

OpenAI-C sada LIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-C sada LIP-Image-Text-Embeddings-ViT-Large-Patch14-336
Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant

Předpokládá se, že vaše image pocházejí z /document/normalized_images/* cesty vytvořené povolením integrované extrakce obrázků. Pokud vaše obrázky pocházejí z jiné cesty nebo jsou uložené jako adresy URL, aktualizujte všechny odkazy na /document/normalized_images/* cestu podle potřeby.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/normalized_images/*",
  "uri": "{YOUR_MODEL_URL_HERE}",
  "key": "{YOUR_MODEL_HERE}",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/normalized_images/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[[$(/document/normalized_images/*/data), '']]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "image_features"
    }
  ]
}

Tato datová část dovednosti AML funguje s následujícími modely z AI Studia:

Cohere-embed-v3-english
Cohere-embed-v3-multilingual

Předpokládá se, že obsah rozdělujete pomocí funkce SplitSkill, a proto se text, který se má vektorizovat, je v /document/pages/* cestě. Pokud text pochází z jiné cesty, aktualizujte všechny odkazy na /document/pages/* cestu podle.

Cestu musíte přidat /v1/embed na konec adresy URL, kterou jste zkopírovali z nasazení AI Studia. Můžete také změnit hodnoty pro input_typetruncate a embedding_types vstupy tak, aby lépe vyhovovaly vašemu případu použití. Další informace o dostupných možnostech najdete v referenčních informacích k rozhraní API pro vložení Cohere.

Identifikátor URI a klíč se vygenerují při nasazení modelu z katalogu. Další informace o těchto hodnotách najdete v tématu Nasazení modelů Cohere Embed pomocí nástroje Azure AI Studio.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "{YOUR_MODEL_URL_HERE}/v1/embed",
  "key": "{YOUR_MODEL_KEY_HERE}",
  "inputs": [
    {
      "name": "texts",
      "source": "=[$(/document/pages/*)]"
    },
    {
      "name": "input_type",
      "source": "='search_document'"
    },
    {
      "name": "truncate",
      "source": "='NONE'"
    },
    {
      "name": "embedding_types",
      "source": "=['float']"
    }
  ],
  "outputs": [
    {
      "name": "embeddings",
      "targetName": "aml_vector_data"
    }
  ]
}

Výstup modelu Cohere navíc není pole vkládání přímo, ale spíše objekt JSON, který ho obsahuje. Při mapování na definici indexProjections indexu pomocí nebo outputFieldMappings. Tady je ukázková datová indexProjections část, která vám umožní provést implementaci tohoto mapování.

Pokud jste v definici dovednosti vybrali jinou embedding_types možnost, kterou musíte změnit float v source cestě k příslušnému typu, který jste místo toho vybrali.

"indexProjections": {
  "selectors": [
    {
      "targetIndexName": "{YOUR_TARGET_INDEX_NAME_HERE}",
      "parentKeyFieldName": "ParentKey", // Change this to the name of the field in your index definition where the parent key will be stored
      "sourceContext": "/document/pages/*",
      "mappings": [
        {
          "name": "aml_vector", // Change this to the name of the field in your index definition where the Cohere embedding will be stored
          "source": "/document/pages/*/aml_vector_data/float/0"
        }
      ]
    }
  ],
  "parameters": {}
}

Ukázková datová část vektorizátoru AI Studio

Vektorizátor AI Studio, na rozdíl od dovednosti AML, je přizpůsobený tak, aby fungoval pouze s modely vkládání, které lze nasadit prostřednictvím katalogu modelů AI Studio. Hlavní rozdíl spočívá v tom, že se nemusíte starat o datovou část požadavku a odpovědi, ale musíte zadat modelNamehodnotu , která odpovídá "ID modelu", které jste zkopírovali po nasazení modelu v AI Studiu.

Tady je ukázková datová část toho, jak byste na definici indexu nakonfigurovali vektorizátor vzhledem k vlastnostem zkopírovaným z AI Studia.

U modelů Cohere byste neměli přidávat /v1/embed cestu na konec adresy URL, jako jste to udělali s dovedností.

"vectorizers": [
    {
        "name": "{YOUR_VECTORIZER_NAME_HERE}",
        "kind": "aml",
        "amlParameters": {
            "uri": "{YOUR_URL_HERE}",
            "key": "{YOUR_PRIMARY_KEY_HERE}",
            "modelName": "{YOUR_MODEL_ID_HERE}"
        },
    }
]

Připojení pomocí ověřování tokenů

Pokud nemůžete použít ověřování založené na klíči, můžete místo toho nakonfigurovat dovednosti AML a připojení vektorizátoru AI Studio pro ověřování tokenů prostřednictvím řízení přístupu na základě role v Azure. Vyhledávací služba musí mít spravovanou identitu přiřazenou systémem nebo uživatelem a identita musí mít oprávnění vlastníka nebo přispěvatele pro váš pracovní prostor projektu AML. Potom můžete klíčové pole odebrat z definice dovednosti a vektorizátoru a nahradit ho polem resourceId. Pokud je projekt AML a vyhledávací služba v různých oblastech, zadejte také pole oblasti.

"uri": "{YOUR_URL_HERE}",
"resourceId": "subscriptions/{YOUR_SUBSCRIPTION_ID_HERE/resourceGroups/{YOUR_RESOURCE_GROUP_NAME_HERE}/providers/Microsoft.MachineLearningServices/workspaces/{YOUR_AML_WORKSPACE_NAME_HERE}/onlineendpoints/{YOUR_AML_ENDPOINT_NAME_HERE}",
"region": "westus", // Only need if AML project lives in different region from search service

Sdílet prostřednictvím

Implementace integrované vektorizace pomocí modelů z Azure AI Studia

Nasazení modelu vložení z katalogu modelů Azure AI Studio

Ukázkové datové části dovedností AML

Ukázková datová část vektorizátoru AI Studio

Připojení pomocí ověřování tokenů

Další kroky

Váš názor

Váš názor

Další materiály