ベクターストアを作成する

[アーティクル]
03/27/2024

Azure AI 検索において、"ベクトルストア" には、ベクトルフィールドと非ベクトルフィールドを定義するインデックススキーマ、埋め込み空間を作成するアルゴリズムのベクトル構成、およびクエリ要求で使用されるベクトルフィールド定義の設定が含まれています。 Create Index API によってベクトルストアが作成されます。

次の手順に従ってベクトルデータにインデックスを作成します。

インデックス作成と検索のアルゴリズムを指定する、1 つ以上のベクトル構成を使用するスキーマを定義します
1 つ以上のベクトルフィールドを追加します
事前にベクトル化されたデータを別のステップとして読み込むか、インデックス作成中のデータのチャンク分割とエンコードに垂直統合 (プレビュー) を使用します。

この記事は、一般提供されている、非プレビューバージョンのベクトル検索に適用されます。ここでは、アプリケーションコードでチャンク分割およびエンコードのために外部リソースが呼び出されることを想定しています。

Note

2023-07-01-preview からの移行ガイダンスをお探しですか? REST API のアップグレードに関するページを参照してください。

前提条件

任意のリージョンおよび任意のレベルの Azure AI Search。既存のサービスのほとんどではベクトル検索がサポートされています。 2019 年 1 月より前に作成されたサービスでは、ごく一部がベクトル検索をサポートできません。ベクトルフィールドを含むインデックスの作成または更新に失敗した場合、これはインジケーターです。このような場合は、新しいサービスを作成する必要があります。
ソースドキュメント内の既存のベクトル埋め込み。 Azure AI Search では、Azure SDK と REST API の一般提供バージョンにおいてベクトルは生成されません。 Azure OpenAI 埋め込みモデルをお勧めしますが、ベクター化には任意のモデルを使用できます。詳細については、「埋め込みの生成」を参照してください。
埋め込みの作成に使用されるモデルの次元の制限と、類似性の計算方法を理解している必要があります。 Azure OpenAI では、text-embedding-ada-002 の場合、数値ベクトルの長さは 1536 です。類似性は、cosine を使用して計算されます。有効値は 2 から 3072 次元です。
インデックスの作成に慣れている必要があります。スキーマには、ドキュメントキーのフィールド、検索またはフィルター処理するその他のフィールド、およびインデックス作成やクエリの実行中に必要な動作に関するその他の構成が含まれている必要があります。

インデックス作成のためのドキュメントを準備する

インデックスを付ける前に、ベクトルおよび非ベクトルデータのフィールドを含むドキュメントペイロードをアセンブルします。ドキュメント構造は、インデックススキーマに準拠している必要があります。

ドキュメントが次のようになっていることを確認します。

各ドキュメントを一意に識別するフィールドまたはメタデータプロパティを指定します。すべての検索インデックスにはドキュメントキーが必要です。ドキュメントキーの要件を満たすには、ソースドキュメントに、インデックス内で一意に識別できる 1 つのフィールドまたはプロパティが必要です。このソースフィールドは、Edm.String 型のインデックスフィールドにマップし、検索インデックスで key=true である必要があります。
ソースフィールドにベクトルデータ (単精度浮動小数点数の配列) を指定します。

ベクトルフィールドには、モデルを埋め込むことで生成される数値データが含まれます。フィールドごとに 1 つの埋め込みがあります。テキストドキュメント用の text-embedding-ada-002 やイメージ用の Image Retrieval REST API など、Azure OpenAI の埋め込みモデルをお勧めします。インデックスの最上位ベクトルフィールドのみがサポートされており、ベクトルサブフィールドは現在サポートされていません。
クエリ応答、および同じ要求にフルテキスト検索またはセマンティックランク付けを含むハイブリッドクエリシナリオ用に、人間が判読できる英数字の内容を他のフィールドに提供します。

検索インデックスには、サポートするすべてのクエリシナリオのフィールドと内容が含まれている必要があります。製品名、バージョン、メタデータ、または住所を検索またはフィルター処理するとします。この場合、類似性検索は特に役立つわけではありません。キーワード検索、地域検索、またはフィルターの方が適しています。ベクトルおよび非ベクトルデータの包括的なフィールドコレクションを含む検索インデックスでは、クエリの構築と応答の構成に最大限の柔軟性を提供します。

ベクトルおよび非ベクトルフィールドを含むドキュメントペイロードの簡単な例が、この記事のベクトルデータの読み込みに関するセクションにあります。

ベクトル検索構成を追加する

ベクトル構成では、インデックス作成中に使用されるベクトル検索アルゴリズムおよびパラメーターを指定して、ベクトルノード間の "最近傍" の情報を作成します。

階層ナビゲーション可能な小さい世界 (HNSW)
完全な KNN

フィールドで HNSW を選択すると、クエリ時に完全な KNN を選択できます。しかし、逆の方向ではうまくいきません。完全な検索を選択すると、後で HNSW 検索を要求することはできません。これは、近似検索を有効にする追加のデータ構造が存在しないため’です。

preview-to-stable バージョンの移行ガイダンスをお探しですか? 手順については、REST API のアップグレードに関するページを参照してください。

REST API バージョン 2023-11-01 では、次のベクトル構成がサポートされます。

インデックス作成とスコア付けのためのパラメーターを伴う vectorSearch アルゴリズム、hnsw および exhaustiveKnn ニアレストネイバー。
アルゴリズム構成の複数の組み合わせ用の vectorProfiles。

コンテンツをベクトル化するための戦略を必ず用意してください。安定バージョンでは、組み込みの埋め込み用の vectorizer は提供されません。

インデックスの作成または更新 API を使用してインデックスを作成します。
埋め込み空間の作成に使用する検索アルゴリズムを指定する vectorSearch セクションをインデックスに追加します。
```
 "vectorSearch": {
     "algorithms": [
         {
             "name": "my-hnsw-config-1",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 4,
                 "efConstruction": 400,
                 "efSearch": 500,
                 "metric": "cosine"
             }
         },
         {
             "name": "my-hnsw-config-2",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 8,
                 "efConstruction": 800,
                 "efSearch": 800,
                 "metric": "cosine"
             }
         },
         {
             "name": "my-eknn-config",
             "kind": "exhaustiveKnn",
             "exhaustiveKnnParameters": {
                 "metric": "cosine"
             }
         }

     ],
     "profiles": [
       {
         "name": "my-default-vector-profile",
         "algorithm": "my-hnsw-config-2"
       }
     ]
 }
```
重要なポイント:
- 構成オプションの名前。名前はインデックス内で一意でなければなりません。
- profiles によって、より豊富な定義に対応するための抽象化レイヤーが追加されます。プロファイルは vectorSearch で定義され、その後、各ベクトルフィールドで名前によって参照されます。
- "hnsw" と "exhaustiveKnn" は、インデックス作成中にベクトルコンテンツを整理するために使用される近似最近傍 (ANN) アルゴリズムです。
- "m" (双方向リンク数) の既定値は 4 です。範囲は 4 ～ 10 です。値を小さくすると、結果のノイズが少なくなります。
- "efConstruction" の既定値は 400 です。範囲は 100 ～ 1,000 です。インデックス作成中に使用される最も近い近隣ノードの数です。
- "efSearch" の既定値は 500 です。範囲は 100 ～ 1,000 です。検索中に使用される最も近い近隣ノードの数です。
- Azure OpenAI を使用している場合、"metric" は "cosine" にする必要があります。それ以外の場合は、使用している埋め込みモデルに関連付けられている類似性メトリックを使用します。サポートされる値は、cosine、dotProduct、euclidean です。

REST API バージョン 2023-10-01-Preview では、外部および内部ベクトル化がサポートされます。このセクションでは、外部ベクトル化戦略を前提としています。この API では、以下がサポートされます。

インデックス作成とスコア付けのためのパラメーターを伴う vectorSearch アルゴリズム、hnsw および exhaustiveKnn ニアレストネイバー。
アルゴリズム構成の複数の組み合わせ用の vectorProfiles。

インデックスの作成または更新のプレビュー REST API を使用してインデックスを作成します。
埋め込み空間の作成に使用する検索アルゴリズムを指定する vectorSearch セクションをインデックスに追加します。
```
 "vectorSearch": {
     "algorithms": [
         {
             "name": "my-hnsw-config-1",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 4,
                 "efConstruction": 400,
                 "efSearch": 500,
                 "metric": "cosine"
             }
         },
         {
             "name": "my-hnsw-config-2",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 8,
                 "efConstruction": 800,
                 "efSearch": 800,
                 "metric": "cosine"
             }
         },
         {
             "name": "my-eknn-config",
             "kind": "exhaustiveKnn",
             "exhaustiveKnnParameters": {
                 "metric": "cosine"
             }
         }

     ],
     "profiles": [
       {
         "name": "my-default-vector-profile",
         "algorithm": "my-hnsw-config-2"
       }
     ]
 }
```
重要なポイント:
- 構成オプションの名前。名前はインデックス内で一意でなければなりません。
- profiles は、このプレビューの新機能です。これにより、より豊富な定義に対応するための抽象化レイヤーが追加されます。プロファイルは vectorSearchで定義され、続いて各ベクトルフィールドのプロパティとして定義されます。
- hnsw と "exhaustiveKnn" は、インデックス作成中にベクトルコンテンツを整理するために使用される近似最近傍 (ANN) アルゴリズムです。
- m (双方向リンク数) の既定値は 4 です。範囲は 4 ～ 10 です。値を小さくすると、結果のノイズが少なくなります。
- efConstruction の既定値は 400 です。範囲は 100 ～ 1,000 です。インデックス作成中に使用される最も近い近隣ノードの数です。
- efSearch の既定値は 500 です。範囲は 100 ～ 1,000 です。検索中に使用される最も近い近隣ノードの数です。
- Azure OpenAI を使用している場合、metric は "cosine" にする必要があります。それ以外の場合は、使用している埋め込みモデルに関連付けられている類似性メトリックを使用します。サポートされる値は、cosine、dotProduct、euclidean です。

REST API バージョン 2023-07-01-Preview は、ベクトルシナリオがサポートされている最初の REST API バージョンでした。今回のバージョンの内容は以下のとおりです。

HNSW アルゴリズムを指定するための vectorSearch。
ベクトルコンテンツのインデックスを作成するための hnsw 最も近い近隣アルゴリズム

インデックスの作成または更新 REST API を使用してインデックスを作成します。
埋め込み空間の作成に使用する検索アルゴリズムを指定する vectorSearch セクションをインデックスに追加します。
```
 "vectorSearch": {
     "algorithmConfigurations": [
         {
             "name": "vectorConfig",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 4,
                 "efConstruction": 400,
                 "efSearch": 500,
                 "metric": "cosine"
             }
         }
     ]
 }
```
重要なポイント:
- 構成オプションの名前。名前はインデックス内で一意でなければなりません。
- hnsw は、インデックス作成中に近接グラフを作成するために使用される近似最近傍 (ANN) アルゴリズムです。この API バージョンでは、階層ナビゲーション可能な小さい世界 (HNSW) のみがサポートされています。
- m (双方向リンク数) の既定値は 4 です。範囲は 4 ～ 10 です。値を小さくすると、結果のノイズが少なくなります。
- efConstruction の既定値は 400 です。範囲は 100 ～ 1,000 です。インデックス作成中に使用される最も近い近隣ノードの数です。
- efSearch の既定値は 500 です。範囲は 100 ～ 1,000 です。検索中に使用される最も近い近隣ノードの数です。
- Azure OpenAI を使用している場合、metric は "cosine" にする必要があります。それ以外の場合は、使用している埋め込みモデルに関連付けられている類似性メトリックを使用します。サポートされる値は、cosine、dotProduct、euclidean です。

フィールドコレクションにベクトルフィールドを追加する

フィールドコレクションには、ドキュメントキーのフィールド、ベクトルフィールド、およびハイブリッド検索シナリオに必要なその他のフィールドを含める必要があります。

ベクトルフィールドは、Collection(Edm.Single) 型で単精度浮動小数点値です。この型のフィールドにも dimensions プロパティがあり、ベクトル構成を指定します。

一般提供の機能のみが必要な場合は、このバージョンを使用します。

インデックスの作成または更新を使用してインデックスを作成します。
次の属性を含むベクトルフィールドを定義します。生成された埋め込みをフィールドごとに 1 つ格納できます。各ベクターフィールドについて次を行います。
- type は、Collection(Edm.Single) である必要があります。
- dimensions は、埋め込みモデルによって生成されるディメンションの数です。 text-embedding-ada-002 の場合は、1,536 個です。
- vectorSearchProfile は、インデックス内の他の場所で定義されているプロファイルの名前です。
- searchable は true にする必要があります。
- retrievable には、true または false を指定できます。 True の場合、生のベクトル (そのうちの 1,536 個) がプレーンテキストとして返され、ストレージ領域が消費されます。ベクトル結果をダウンストリームアプリに渡す場合は、true に設定します。
- filterable、facetable、sortable は、false にする必要があります。
ベクトルクエリで事前フィルター処理または事後フィルター処理を呼び出す場合は、filterable を true に設定した "title" など、フィルターを適用できる非ベクトルフィールドをコレクションに追加します。

インデックスを作成するテキストコンテンツの内容と構造を定義する他のフィールドを追加します。最低でも、ドキュメントキーが必要です。

また、クエリまたはその応答に役立つフィールドも追加する必要があります。次の例は、ベクトルと同等のタイトルとコンテンツ ("titleVector"、"contentVector") のベクトルフィールドを示しています。また、検索結果の並べ替え、フィルター処理、読み取りに役立つ同等のテキストコンテンツ ("title"、"content") のフィールドも提供します。

次の例は、フィールドコレクションを示しています。

PUT https://my-search-service.search.windows.net/indexes/my-index?api-version=2023-11-01&allowIndexDowntime=true
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "name": "{{index-name}}",
    "fields": [
        {
            "name": "id",
            "type": "Edm.String",
            "key": true,
            "filterable": true
        },
        {
            "name": "title",
            "type": "Edm.String",
            "searchable": true,
            "filterable": true,
            "sortable": true,
            "retrievable": true
        },
        {
            "name": "titleVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchProfile": "my-default-vector-profile"
        },
        {
            "name": "content",
            "type": "Edm.String",
            "searchable": true,
            "retrievable": true
        },
        {
            "name": "contentVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchProfile": "my-default-vector-profile"
        }
    ],
    "vectorSearch": {
        "algorithms": [
            {
                "name": "my-hnsw-config-1",
                "kind": "hnsw",
                "hnswParameters": {
                    "m": 4,
                    "efConstruction": 400,
                    "efSearch": 500,
                    "metric": "cosine"
                }
            }
        ],
        "profiles": [
            {
                "name": "my-default-vector-profile",
                "algorithm": "my-hnsw-config-1"
            }
        ]
    }
}

次の REST API の例では、"title" と "content" にはフルテキスト検索とセマンティックランク付けに使用されるテキストコンテンツが含まれますが、"titleVector" と "contentVector" にはベクトルデータが含まれています。

インデックスの作成または更新のプレビュー REST API を使用してインデックスを作成します。
フィールドコレクションにベクトルフィールドを追加します。生成された埋め込みをドキュメントフィールドごとに 1 つ格納できます。各ベクターフィールドについて次を行います。
- type は、Collection(Edm.Single) である必要があります。
- dimensions は、埋め込みモデルによって生成されるディメンションの数です。 text-embedding-ada-002 の場合は、1,536 個です。
- vectorSearchProfile は、インデックス内の他の場所で定義されているプロファイルの名前です。
- searchable は true にする必要があります。
- retrievable には、true または false を指定できます。 True の場合、生のベクトル (そのうちの 1,536 個) がプレーンテキストとして返され、ストレージ領域が消費されます。ベクトル結果をダウンストリームアプリに渡す場合は、true に設定します。
- filterable、facetable、sortable は、false にする必要があります。
[ベクトルクエリ](vector-search-how-to-query.md) で事前フィルター処理または事後フィルター処理を呼び出す場合は、filterable を true に設定した "title" など、フィルターを適用できる非ベクトルフィールドをコレクションに追加します

インデックスを作成するテキストコンテンツの内容と構造を定義する他のフィールドを追加します。最低でも、ドキュメントキーが必要です。

次の例は、フィールドコレクションを示しています。

PUT https://my-search-service.search.windows.net/indexes/my-index?api-version=2023-10-01-Preview&allowIndexDowntime=true
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "name": "{{index-name}}",
    "fields": [
        {
            "name": "id",
            "type": "Edm.String",
            "key": true,
            "filterable": true
        },
        {
            "name": "title",
            "type": "Edm.String",
            "searchable": true,
            "filterable": true,
            "sortable": true,
            "retrievable": true
        },
        {
            "name": "titleVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchProfile": "my-default-vector-profile"
        },
        {
            "name": "content",
            "type": "Edm.String",
            "searchable": true,
            "retrievable": true
        },
        {
            "name": "contentVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchProfile": "my-default-vector-profile"
        }
    ],
    "vectorSearch": {
        "algorithms": [
            {
                "name": "my-hnsw-config-1",
                "kind": "hnsw",
                "hnswParameters": {
                    "m": 4,
                    "efConstruction": 400,
                    "efSearch": 500,
                    "metric": "cosine"
                }
            }
        ],
        "profiles": [
            {
                "name": "my-default-vector-profile",
                "algorithm": "my-hnsw-config-1"
            }
        ]
    }
}

重要

このバージョンのベクトルフィールド定義は、以降のバージョンでは廃止されています。 2023-11-01 または 2023-10-01-Preview に移行することをお勧めします。 vectorSearchConfiguration を vectorSearchProfile に変更します。

REST API バージョン 2023-07-01-Preview は、ベクトルシナリオがサポートされている最初の REST API バージョンでした。

インデックスの作成または更新のプレビュー REST API を使用してインデックスを作成します。
フィールドコレクションにベクトルフィールドを追加します。生成された埋め込みをドキュメントフィールドごとに 1 つ格納できます。各ベクターフィールドについて次を行います。
- Collection(Edm.Single) データ型を割り当てます。
- ベクトル検索アルゴリズム構成の名前を指定します。
- 埋め込みモデルによって生成される次元の数を指定します。
- 属性を設定します。
  - "searchable" は "true" にしなければなりません。
  - "retrievable" を "true" に設定すると、未加工のベクトル (検証手順など) を表示できますが、これを行うとストレージが増えます。未加工のベクトルを返す必要がない場合は、"false" に設定します。クエリについてベクトルを返す必要はありませんが、ダウンストリームアプリにベクトルの結果を渡す場合は、"retrievable" を "true" に設定します。
  - "filterable"、"facetable"、"sortable" の属性は "false" にしなければなりません。これらの動作はベクトルフィールドのコンテキスト内では適用されず、要求は失敗するため、"true" に設定しないでください。

インデックスを作成するテキストコンテンツの内容と構造を定義する他のフィールドを追加します。最低でも、ドキュメントキーが必要です。

記述された要素を含むインデックス定義は次のようになります。

PUT https://my-search-service.search.windows.net/indexes/my-index?api-version=2023-07-01-Preview&allowIndexDowntime=true
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "name": "{{index-name}}",
    "fields": [
        {
            "name": "id",
            "type": "Edm.String",
            "key": true,
            "filterable": true
        },
        {
            "name": "title",
            "type": "Edm.String",
            "searchable": true,
            "filterable": true,
            "sortable": true,
            "retrievable": true
        },
        {
            "name": "titleVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchConfiguration": "vectorConfig"
        },
        {
            "name": "content",
            "type": "Edm.String",
            "searchable": true,
            "retrievable": true
        },
        {
            "name": "contentVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchConfiguration": "vectorConfig"
        }
    ],
    "vectorSearch": {
        "algorithmConfigurations": [
            {
                "name": "vectorConfig",
                "kind": "hnsw",
                "hnswParameters": {
                    "m": 4,
                    "efConstruction": 400,
                    "efSearch": 500,
                    "metric": "cosine"
                }
            }
        ]
    }
}

Azure portal では、2023-10-01-Preview の動作がサポートされています。

Azure portal のインデックスデザイナーを使用して、ベクトルフィールド定義を追加します。インデックスにベクトル構成がない場合は、最初のベクトルフィールドをインデックスに追加するときに作成するように求められます。

インデックスにフィールドを追加することはできますが、ベクトルデータを使用して読み込むためのポータル (データのインポートウィザード) のサポートはありません。代わりに、REST API または SDK を使用してデータをインポートします。

Azure portal にサインインして、ブラウザーで検索サービスのページを開きます。
左側のナビゲーションウィンドウで [Search 管理]>[インデックス] を選択します。
[+ インデックスの追加 を選択し、インデックスに名前を付けます。
[フィールドの追加] を選択します。

重要なポイント:
- フィールドに名前を付けます (スペースなし)。
- 型 Collection(Edm.Single). を選択します。
- クエリで検索結果のベクトルデータを返す場合は、"Retrievable" を選択します。人間が判読できる内容を含む他のフィールドがマッチのプロキシとして返される場合は、スペースを節約するために "Retrievable" を false に設定する必要があります。
- ベクトルフィールドには "Searchable" は必須であり、変更することはできません。
- "Dimensions" は、モデルによって返されるベクトルの長さです。この値を設定して、 text-embeddding-ada-002 に 1536 を指定します。ここで、指定した入力テキストは 1536 次元を使用して数値で記述されます。
類似性検索に使用するベクトル構成を選択、または作成します。インデックスにベクトル構成がない場合は、[作成] を選択しなければなりません。

重要なポイント:
- 構成に名前を付けます。名前はインデックス内で一意でなければなりません。
- "hnsw" は、インデックス作成中に近接グラフを作成するために使用される近似最近傍 (ANN) アルゴリズムです。現時点では、階層ナビゲーション可能な小さい世界 (HNSW) のみがサポートされています。
- "Bi-directional link count" の既定値は 4 です。範囲は 4 ～ 10 です。値を小さくすると、結果のノイズが少なくなります。
- "efConstruction" の既定値は 400 です。範囲は 100 ～ 1,000 です。インデックス作成中に使用される最も近い近隣ノードの数です。
- "efSearch" の既定値は 500 です。範囲は 100 ～ 1,000 です。検索中に使用される最も近い近隣ノードの数です。
- Azure OpenAI を使用している場合、"Similarity metric" は "cosine" にする必要があります。それ以外の場合は、使用している埋め込みモデルに関連付けられている類似性メトリックを使用します。サポートされる値は、cosine、dotProduct、euclidean です。
HNSW のパラメーターに習熟している場合は、結果で返される最も近い近隣の "k" 数を設定する方法について疑問に思うかもしれません。 Azure AI Search では、その値はクエリ要求で設定されます。
[保存] を選択して、ベクトル構成とフィールド定義を保存します。

インデックス作成のためベクトルデータを読み込む

インデックス作成用に指定するコンテンツは、インデックススキーマに準拠し、ドキュメントキーの一意の文字列値を含んでいる必要があります。事前ベクトル化データは、英数字コンテンツを含む他のフィールドと共存できる 1 つ以上のベクトルフィールドに読み込まれます。

データインジェストにプッシュまたはプルの手法を使用できます。

Push API
Pull API (インデクサー)

ドキュメントのインデックス作成 (2023-11-01)、ドキュメントのインデックス作成 (2023-10-01-Preview)、またはドキュメントの追加、更新、削除 (2023-07-01-Preview) を使用して、ベクトルデータを含むドキュメントをプッシュします。

POST https://{{search-service-name}}.search.windows.net/indexes/{{index-name}}/docs/index?api-version=2023-11-01
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "value": [
        {
            "id": "1",
            "title": "Azure App Service",
            "content": "Azure App Service is a fully managed platform for building, deploying, and scaling web apps. You can host web apps, mobile app backends, and RESTful APIs. It supports a variety of programming languages and frameworks, such as .NET, Java, Node.js, Python, and PHP. The service offers built-in auto-scaling and load balancing capabilities. It also provides integration with other Azure services, such as Azure DevOps, GitHub, and Bitbucket.",
            "category": "Web",
            "titleVector": [
                -0.02250031754374504,
                 . . . 
                        ],
            "contentVector": [
                -0.024740582332015038,
                 . . .
            ],
            "@search.action": "upload"
        },
        {
            "id": "2",
            "title": "Azure Functions",
            "content": "Azure Functions is a serverless compute service that enables you to run code on-demand without having to manage infrastructure. It allows you to build and deploy event-driven applications that automatically scale with your workload. Functions support various languages, including C#, F#, Node.js, Python, and Java. It offers a variety of triggers and bindings to integrate with other Azure services and external services. You only pay for the compute time you consume.",
            "category": "Compute",
            "titleVector": [
                -0.020159931853413582,
                . . .
            ],
            "contentVector": [
                -0.02780858241021633,
                 . . .
            ],
            "@search.action": "upload"
        }
        . . .
    ]
}

インデクサーは、ベクトルフィールドの要件とプレビュー REST API を満たすインデックススキーマを想定して、ソースドキュメント内のベクトルフィールドを取得してインデックス付けを行うことができます。

データソースは、データソースがサポートする形式 (JSON の文字列など) でベクトルを提供します。インデクサーは、Collection(Edm.Single) として型指定されたフィールドにベクトルが含まれていることを前提とし、その内容にベクトルインデックスとしてインデックスを付けます。

ベクトルのフィールドマッピング動作や変更検出についての変更はありません。テキストインデックス作成の動作は、ベクトルにも適用されます。
ベクトルデータがファイル内でソース化されている場合は、データの形状に基づいて、json、jsonLines、csv などの既定以外の parsingMode をお勧めします。
データソースの場合、上記のいずれかの parsingModes をもつ Azure Blob インデクサーと Azure Cosmos DB for NoSQL インデクサーは、テストされ、動作することが確認されています。

Azure SQL では、コレクションを 1 つの SQL 列としてネイティブに格納する方法は提供されていません。現時点では、回避策は特定されていません。
データソースのすべてのベクトルの次元は同じで、マッピング先のフィールドのインデックス定義と一致している必要があります。一致しないドキュメントについては、インデクサーはエラーをスローします。

ベクトルコンテンツについてのインデックスを確認する

検証の目的で、Azure portal の Search エクスプローラーまたは REST API 呼び出しを使用してインデックスのクエリを実行できます。 Azure AI Search ではベクトルを人間が判読できるテキストに変換できないため、一致のエビデンスを提供する同じドキュメントからフィールドを返すようにしてください。たとえば、ベクトルクエリが "titleVector" フィールドを対象とする場合は、検索結果に "title" を選択できます。

あるフィールドを結果に含めるには、そのフィールドに "retrievable" の属性が付けられている必要があります。

Azure Portal
REST API

Search エクスプローラーを使用して、インデックスにクエリを実行できます。 Search エクスプローラーには、クエリビュー (既定) と JSON ビューの 2 つのビューがあります。

実行するベクトルクエリの JSON 定義に貼り付けて、ベクタークエリに JSON ビューを使用します。
既定のクエリビューを使用して、インデックスにベクトルが含まれていることをすばやく確認します。クエリビューはフルテキスト検索用です。ベクトルクエリには使用できませんが、空の検索 (search=*) を送信してコンテンツを確認できます。ベクトルフィールドを含むすべてのフィールドの内容が、プレーンテキストとして返されます。

次の REST API の例はベクトルクエリですが、非ベクトルフィールド (タイトル、コンテンツ、カテゴリ) のみが返されます。 "retrievable" とマークされたフィールドのみが検索結果で返されます。

POST https://my-search-service.search.windows.net/indexes/my-index/docs/search?api-version=2023-11-01
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "vector": {
        "value": [
            -0.009154141,
            0.018708462,
            . . . 
            -0.02178128,
            -0.00086512347
        ],
        "fields": "contentVector",
        "k": 5
    },
    "select": "title, content, category"
}

ベクトルストアを更新する

ベクトルストアを更新するには、スキーマを変更し、必要に応じてドキュメントを再読み込みして新しいフィールドを設定します。スキーマ更新の API には、インデックスの作成または更新 (REST)、Azure SDK for .NET の CreateOrUpdateIndex、Azure SDK for Python の create_or_update_index、その他の Azure SDK の同様のメソッドが含まれます。

インデックスの更新に関する標準的なガイダンスについては、インデックスの削除と再構築に関するページで説明されています。

重要なポイントは次のとおりです。

多くの場合、既存のフィールドの更新と削除には、削除と再構築が必要です。
ただし、再構築しなくても、次の変更を加えて既存のスキーマを更新できます。
- Fields コレクションに新しいフィールドを追加します。
- 新しいベクトル構成を追加します。新しいフィールドには割り当てられますが、既にベクトル化されている既存のフィールドには割り当てられません。
- 既存のフィールドの "retrievable" (値は true または false) を変更します。ベクトルフィールドは検索可能で取得可能である必要がありますが、削除と再構築が不可能な状況でベクトルフィールドへのアクセスを無効にする場合は、retrievable を false に設定できます。

次のステップ

次の手順として、「検索インデックス内のベクトルデータのクエリ」をお勧めします。

azure-search-vector リポジトリのコードサンプルでは、スキーマ定義、ベクトル化、インデックス作成、クエリを含むエンドツーエンドのワークフローを示しています。

Python、C#、JavaScript 用のデモコードがあります。

ベクター ストアを作成する

前提条件

インデックス作成のためのドキュメントを準備する

ベクトル検索構成を追加する

フィールド コレクションにベクトル フィールドを追加する

インデックス作成のためベクトル データを読み込む

ベクトル コンテンツについてのインデックスを確認する

ベクトル ストアを更新する

次のステップ

その他のリソース

ベクターストアを作成する

フィールドコレクションにベクトルフィールドを追加する

インデックス作成のためベクトルデータを読み込む

ベクトルコンテンツについてのインデックスを確認する

ベクトルストアを更新する