Azure AI Studio のモデルを使用して統合ベクター化を実装する方法

[アーティクル]
05/21/2024

重要

この機能はパブリックプレビュー段階にあり、追加使用条件の下で提供されます。この機能は、2024-05-01-Preview REST API でサポートされます。

この記事では、Azure AI Studio モデルカタログの埋め込みモデルにアクセスして、インデックス作成中や Azure AI Search のクエリでベクター変換を行う方法について説明します。

ワークフローには、モデルデプロイ手順が含まれています。モデルカタログには、Azure OpenAI、Cohere、Facebook、OpenAI のモデルの埋め込みが含まれています。モデルのデプロイは、各プロバイダーの課金構造を通じて課金されます。

モデルがデプロイされたら、インデックス作成中に統合ベクター化に使用するか、クエリ用の AI Studio ベクター化でモデルを使用できます。

Azure AI Studio モデルカタログから埋め込みモデルをデプロイする

Azure AI Studio モデルカタログを開きます。
埋め込みモデルのみを表示するフィルターを適用します。 [Inference tasks]\(推論タスク\) で、[Embeddings]\(埋め込み\) を選択します。
コンテンツのベクター化に使用するモデルを選択します。次に、[デプロイ] を選択し、デプロイオプションを選択します。
要求された詳細を入力します。新しい AI プロジェクトを選択または作成し、[デプロイ] を選択します。デプロイの詳細は、選択したモデルによって異なります。
プロビジョニング状態を監視して、モデルのデプロイが完了するまで待ちます。 "プロビジョニング"、"更新中"、"成功" の順に変わるはずです。状態の更新を表示するには、数分ごとに [更新] を選択する必要がある場合があります。
URL、主キー、モデル ID の各フィールドをコピーし、後で使用できるように記録しておきます。これらの値は、検索インデックス内のベクター化定義と、インデックス作成中にモデルエンドポイントを呼び出すスキルセットに必要です。

必要に応じて、キー認証ではなくトークン認証を使用するようにエンドポイントを変更できます。トークン認証を有効にする場合、必要になる作業は、URL とモデル ID をコピーし、モデルがどのリージョンにデプロイされているかも書き留めておくことだけです。
これで、デプロイされたモデルを使用するように検索インデックスとインデクサーを構成できるようになりました。
- インデックス作成中にモデルを使用するには、統合ベクター化を有効にする手順を参照してください。 AzureOpenAIEmbedding スキルではなく、必ず Azure Machine Learning (AML) スキルを使用してください。次のセクションでは、スキルの構成について説明します。
- モデルをクエリ時のベクター化として使用するには、「ベクトル化を構成する」を参照してください。この手順では、必ず Azure AI Studio モデルカタログのベクトル化を使用してください。

AML スキルペイロードのサンプル

Azure AI Studio モデルカタログから埋め込みモデルをデプロイする場合は、Azure AI Search の AML スキルを使用してそれらに接続し、ワークロードのインデックスを作成します。

このセクションでは、AML スキルの定義とインデックスマッピングについて説明します。これには、対応するデプロイされたエンドポイントで動作するように既に構成されているサンプルペイロードが含まれています。これらのペイロードのしくみの技術的な詳細については、スキルコンテキストと入力注釈言語に関するページを参照してください。

この AML スキルペイロードは、AI Studio の次のモデルで動作します。

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

テキスト分割スキルを使用してコンテンツをチャンキングし、ベクター化するテキストが /document/pages/* パス内にあることを前提としています。テキストが別のパスから取得されている場合は、それに応じて /document/pages/* パスへのすべての参照を更新します。

URI とキーは、カタログからモデルをデプロイするときに生成されます。これらの値の詳細については、「Azure AI Studio を使用して大規模言語モデルをデプロイする方法」を参照してください。

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "{YOUR_MODEL_URL_HERE}",
  "key": "{YOUR_MODEL_KEY_HERE}",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/pages/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[['', $(/document/pages/*)]]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "text_features"
    }
  ]
}

この AML スキルペイロードは、AI Studio の次のモデルで動作します。

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336
Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant

画像は、組み込みの画像抽出を有効にして作成された /document/normalized_images/* パスから取得されることを前提としています。画像が別のパスから取得された場合、または URL として保存されている場合は、/document/normalized_images/* パスへのすべての参照を更新します。

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/normalized_images/*",
  "uri": "{YOUR_MODEL_URL_HERE}",
  "key": "{YOUR_MODEL_HERE}",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/normalized_images/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[[$(/document/normalized_images/*/data), '']]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "image_features"
    }
  ]
}

この AML スキルペイロードは、AI Studio の次のモデルで動作します。

Cohere-embed-v3-english
Cohere-embed-v3-multilingual

SplitSkill を使用してコンテンツをチャンクしていることを前提としているため、ベクター化するテキストは /document/pages/* パス内にあります。テキストが別のパスから取得されている場合は、それに応じて /document/pages/* パスへのすべての参照を更新します。

AI Studio デプロイからコピーした URL の末尾に /v1/embed パスを追加する必要があります。また、ユースケースに合わせて、input_type、truncate、embedding_types の入力の値を変更することもできます。使用可能なオプションの詳細については、Cohere Embed API リファレンスを参照してください。

URI とキーは、カタログからモデルをデプロイするときに生成されます。これらの値の詳細については、「Azure AI Studio を使用して Cohere Embed モデルをデプロイする方法」を参照してください。

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "{YOUR_MODEL_URL_HERE}/v1/embed",
  "key": "{YOUR_MODEL_KEY_HERE}",
  "inputs": [
    {
      "name": "texts",
      "source": "=[$(/document/pages/*)]"
    },
    {
      "name": "input_type",
      "source": "='search_document'"
    },
    {
      "name": "truncate",
      "source": "='NONE'"
    },
    {
      "name": "embedding_types",
      "source": "=['float']"
    }
  ],
  "outputs": [
    {
      "name": "embeddings",
      "targetName": "aml_vector_data"
    }
  ]
}

さらに、Cohere モデルの出力は、直接埋め込み配列ではなく、それを含む JSON オブジェクトです。 indexProjections または outputFieldMappings を介してインデックス定義にマッピングするときに、適切に選択する必要があります。このマッピングを実装できるサンプル indexProjections ペイロードを次に示します。

スキル定義で別の embedding_types を選択した場合は、source パスの float を、代わりに選択した適切な種類に変更する必要があります。

"indexProjections": {
  "selectors": [
    {
      "targetIndexName": "{YOUR_TARGET_INDEX_NAME_HERE}",
      "parentKeyFieldName": "ParentKey", // Change this to the name of the field in your index definition where the parent key will be stored
      "sourceContext": "/document/pages/*",
      "mappings": [
        {
          "name": "aml_vector", // Change this to the name of the field in your index definition where the Cohere embedding will be stored
          "source": "/document/pages/*/aml_vector_data/float/0"
        }
      ]
    }
  ],
  "parameters": {}
}

AI Studio ベクター化ペイロードのサンプル

AML スキルとは異なり、AI Studio ベクター化は、AI Studio モデルカタログを介してデプロイ可能な埋め込みモデルでのみ動作するように調整されています。主な違いは、要求と応答のペイロードについて心配する必要はありませんが、AI Studio でモデルをデプロイした後にコピーした "モデル ID" に対応する modelName を指定する必要があるということです。

AI Studio からコピーされたプロパティを指定して、インデックス定義でベクター化を構成する方法のサンプルペイロードを次に示します。

Cohere モデルの場合は、スキルで行ったように、URL の末尾に /v1/embed パスを追加しないでください。

"vectorizers": [
    {
        "name": "{YOUR_VECTORIZER_NAME_HERE}",
        "kind": "aml",
        "amlParameters": {
            "uri": "{YOUR_URL_HERE}",
            "key": "{YOUR_PRIMARY_KEY_HERE}",
            "modelName": "{YOUR_MODEL_ID_HERE}"
        },
    }
]

トークン認証を使用して接続する

キーベースの認証を使用できない場合は、代わりに、Azure でのロールベースのアクセス制御を介してトークン認証用に AML スキルと AI Studio ベクター化接続を構成できます。検索サービスにはシステムまたはユーザー割り当てマネージド ID が必要であり、ID には AML プロジェクトワークスペースの所有者または共同作成者のアクセス許可が必要です。その後、スキルとベクター化の定義からキーフィールドを削除し、resourceId フィールドに置き換えることができます。 AML プロジェクトと検索サービスが異なるリージョンにある場合は、リージョンフィールドも指定します。

"uri": "{YOUR_URL_HERE}",
"resourceId": "subscriptions/{YOUR_SUBSCRIPTION_ID_HERE/resourceGroups/{YOUR_RESOURCE_GROUP_NAME_HERE}/providers/Microsoft.MachineLearningServices/workspaces/{YOUR_AML_WORKSPACE_NAME_HERE}/onlineendpoints/{YOUR_AML_ENDPOINT_NAME_HERE}",
"region": "westus", // Only need if AML project lives in different region from search service

次の方法で共有

Azure AI Studio のモデルを使用して統合ベクター化を実装する方法

Azure AI Studio モデルカタログから埋め込みモデルをデプロイする

AML スキルペイロードのサンプル

AI Studio ベクター化ペイロードのサンプル

トークン認証を使用して接続する

次のステップ

フィードバック

フィードバック

その他のリソース

次の方法で共有

Azure AI Studio のモデルを使用して統合ベクター化を実装する方法

Azure AI Studio モデル カタログから埋め込みモデルをデプロイする

AML スキル ペイロードのサンプル

AI Studio ベクター化ペイロードのサンプル

トークン認証を使用して接続する

次のステップ

フィードバック

フィードバック

その他のリソース

Azure AI Studio モデルカタログから埋め込みモデルをデプロイする

AML スキルペイロードのサンプル