ベクトル検索用のバイナリベクトルのインデックス付け

[アーティクル]
06/21/2024

重要

バイナリデータ型はパブリックプレビュー段階にあり、追加使用条件の下で提供されます。 2024-05-01-preview REST API 以降のプレビュー API は、新しいデータ型を提供します。

2024-05-01-preview REST API 以降、Azure AI 検索では、ベクトルデータのストレージとメモリ占有領域をさらに削減するための Collection(Edm.Byte) というパックされたバイナリ型がサポートされています。このデータ型は、Cohere の Embed v3 バイナリ埋め込みモデルなどのモデルからの出力に使用できます。

バイナリベクトルのインデックスを構成するには、次の 3 つの手順があります。

バイナリベクトルの比較用のハミング距離を指定するベクトル検索アルゴリズムを追加する
アルゴリズムを指すベクトルプロファイルを追加する
バイナリフィールド定義にベクトルプロファイルを追加する

この記事は、読者が Azure AI 検索でのインデックスの作成について理解していることを前提としています。 REST API を使用して各手順を示しますが、Azure portal のインデックスにバイナリフィールドを追加することもできます。

前提条件

1 ディメンションあたり 1 ビットのバイナリベクトル。値あたり 8 ビットの uint8 値でパッケージ化されます。これらは、"パッケージ化されたバイナリ" ベクトルを直接生成するモデルを使うか、インデックス作成および検索中にクライアント側でベクトルをバイナリベクトルに量子化することによって取得できます。

制限事項

スカラー圧縮または統合ベクトル化のサポートはありません。
[データのインポートとベクトル化] ウィザードでの Azure portal のサポートはありません。
Azure AI Studio モデルカタログでモデルの垂直統合に使われる AML スキルのバイナリフィールドはサポートされていません。

ベクトル検索アルゴリズムとベクトルプロファイルを追加する

ベクトル検索アルゴリズムは、インデックス作成の間にクエリナビゲーション構造を作成するために使われます。バイナリベクトルフィールドの場合、ベクトル比較はハミング距離メトリックを使って実行されます。

バイナリフィールドをインデックスに追加するには、2024-05-01-preview REST API または Azure portal を使用して Create or Update Index 要求を設定します。
インデックススキーマで、プロファイルとアルゴリズムを指定する vectorSearch セクションを追加します。
hamming の類似度メトリックを持つ 1 つ以上のベクトル検索アルゴリズムを追加します。 Hierarchical Navigable Small Worlds (HNSW) を使用するのが一般的ですが、ハミング距離と網羅的 K ニアレストネイバーを使用することもできます。
アルゴリズムを指定する 1 つ以上のベクトルプロファイルを追加します。このプレビューでは、スカラー圧縮やベクトル化を指定できません。

次の例は、基本的な vectorSearch の構成を示しています。

  "vectorSearch": { 
    "profiles": [ 
      { 
        "name": "myHnswProfile", 
        "algorithm": "myHnsw", 
        "compression": null, 
        "vectorizer": null 
      } 
    ], 
    "algorithms": [ 
      { 
        "name": "myHnsw", 
        "kind": "hnsw", 
        "hnswParameters": { 
          "metric": "hamming" 
        } 
      }, 
      { 
        "name": "myExhaustiveKnn", 
        "kind": "exhaustiveKnn", 
        "exhaustiveKnnParameters": { 
          "metric": "hamming" 
        } 
      } 
    ] 
  }

インデックスにバイナリフィールドを追加する

インデックスのフィールドコレクションには、ドキュメントキーのフィールド、ベクトルフィールド、およびハイブリッド検索シナリオで必要なその他のフィールドすべてを含める必要があります。

バイナリフィールドの型は Collection(Edm.Byte) であり、パックされた形式で埋め込みを保持しています。たとえば、元の埋め込みの次元が 1024 である場合、パックされたバイナリベクトルの長さは ceiling(1024 / 8) = 128 になります。フィールドに vectorEncoding プロパティを設定することで、パックされた形式を取得します。

フィールドコレクションにフィールドを追加し、それに名前を付けます。
データ型を Collection(Edm.Byte) に設定します。
バイナリエンコードのために vectorEncoding を packedBit に設定します。
dimensions を 1024 に設定します。元の (パックされていない) ベクトルの次元を指定します。
vectorSearchProfile を前の手順で定義したプロファイルに設定します。

フィールドコレクションの最小の定義は、次の例のようになるはずです。

  "fields": [ 
    { 
      "name": "Id", 
      "type": "Edm.String", 
      "key": true, 
      "searchable": true 
    }, 
    { 
      "name": "my-binary-vector-field", 
      "type": "Collection(Edm.Byte)", 
      "vectorEncoding": "packedBit", 
      "dimensions": 1024, 
      "vectorSearchProfile": "myHnswProfile" 
    } 
  ]

次の方法で共有

ベクトル検索用のバイナリベクトルのインデックス付け

前提条件

制限事項

ベクトル検索アルゴリズムとベクトルプロファイルを追加する

インデックスにバイナリフィールドを追加する

関連項目

フィードバック

フィードバック

その他のリソース

次の方法で共有

ベクトル検索用のバイナリ ベクトルのインデックス付け

前提条件

制限事項

ベクトル検索アルゴリズムとベクトル プロファイルを追加する

インデックスにバイナリ フィールドを追加する

関連項目

フィードバック

フィードバック

その他のリソース

ベクトル検索用のバイナリベクトルのインデックス付け

ベクトル検索アルゴリズムとベクトルプロファイルを追加する

インデックスにバイナリフィールドを追加する