ベクトル検索用のバイナリベクトルのインデックス付け

[アーティクル]
08/08/2024

Azure AI 検索では、ベクトルデータのストレージとメモリ占有領域をさらに削減するための Collection(Edm.Byte) という圧縮されたバイナリ型がサポートされています。このデータ型は、Cohere の Embed v3 バイナリ埋め込みモデルなどのモデルからの出力に使用できます。

バイナリベクトルのインデックスを構成するには、次の 3 つの手順があります。

バイナリベクトルの比較用のハミング距離を指定するベクトル検索アルゴリズムを追加する
アルゴリズムを指すベクトルプロファイルを追加する
バイナリフィールド定義にベクトルプロファイルを追加する

この記事は、読者が Azure AI 検索でのインデックスの作成について理解していることを前提としています。 REST API を使用して各手順を示しますが、Azure portal のインデックスにバイナリフィールドを追加することもできます。

バイナリデータ型は、API バージョン 2024-07-01 以降で一般公開されており、Create Index または Create Or Update Index API を使用してフィールドに割り当てられます。

ヒント

フットプリントが小さいバイナリベクトルのサポートを調査している場合は、Azure AI 検索のベクトル量子化とストレージ削減機能も検討できます。入力は float32 または float16 の埋め込みです。出力は、はるかに小さい形式でデータを格納します。詳細については、「量子化、ナローデータ型、ストレージオプションを使用してベクトルサイズを小さくする」を参照してください。

前提条件

1 ディメンションあたり 1 ビットのバイナリベクトル。値あたり 8 ビットの uint8 値でパッケージ化されます。これらは、"パッケージ化されたバイナリ" ベクトルを直接生成するモデルを使うか、インデックス作成および検索中にクライアント側でベクトルをバイナリベクトルに量子化することによって取得できます。

制限事項

[データのインポートとベクトル化] ウィザードでの Azure portal のサポートはありません。
Azure AI Studio モデルカタログでモデルの垂直統合に使われる AML スキルのバイナリフィールドはサポートされていません。

ベクトル検索アルゴリズムとベクトルプロファイルを追加する

ベクトル検索アルゴリズムは、インデックス作成の間にクエリナビゲーション構造を作成するために使われます。バイナリベクトルフィールドの場合、ベクトル比較はハミング距離メトリックを使って実行されます。

バイナリフィールドをインデックスに追加するには、REST API または Azure portal を使用して Create or Update Index 要求を設定します。
インデックススキーマで、プロファイルとアルゴリズムを指定する vectorSearch セクションを追加します。
hamming の類似度メトリックを持つ 1 つ以上のベクトル検索アルゴリズムを追加します。 Hierarchical Navigable Small Worlds (HNSW) を使用するのが一般的ですが、ハミング距離と網羅的 K ニアレストネイバーを使用することもできます。
アルゴリズムを指定する 1 つ以上のベクトルプロファイルを追加します。

次の例は、基本的な vectorSearch の構成を示しています。

  "vectorSearch": { 
    "profiles": [ 
      { 
        "name": "myHnswProfile", 
        "algorithm": "myHnsw", 
        "compression": null, 
        "vectorizer": null 
      } 
    ], 
    "algorithms": [ 
      { 
        "name": "myHnsw", 
        "kind": "hnsw", 
        "hnswParameters": { 
          "metric": "hamming" 
        } 
      }, 
      { 
        "name": "myExhaustiveKnn", 
        "kind": "exhaustiveKnn", 
        "exhaustiveKnnParameters": { 
          "metric": "hamming" 
        } 
      } 
    ] 
  }

インデックスにバイナリフィールドを追加する

インデックスのフィールドコレクションには、ドキュメントキーのフィールド、ベクトルフィールド、およびハイブリッド検索シナリオで必要なその他のフィールドすべてを含める必要があります。

バイナリフィールドの型は Collection(Edm.Byte) であり、パックされた形式で埋め込みを保持しています。たとえば、元の埋め込みの次元が 1024 である場合、パックされたバイナリベクトルの長さは ceiling(1024 / 8) = 128 になります。フィールドに vectorEncoding プロパティを設定することで、パックされた形式を取得します。

フィールドコレクションにフィールドを追加し、それに名前を付けます。
データ型を Collection(Edm.Byte) に設定します。
バイナリエンコードのために vectorEncoding を packedBit に設定します。
dimensions を 1024 に設定します。元の (パックされていない) ベクトルの次元を指定します。
vectorSearchProfile を前の手順で定義したプロファイルに設定します。
フィールドを検索可能にします。

次のフィールド定義は、設定する必要があるプロパティの例です。

  "fields": [ 
    . . . 
    { 
      "name": "my-binary-vector-field", 
      "type": "Collection(Edm.Byte)", 
      "vectorEncoding": "packedBit", 
      "dimensions": 1024, 
      "vectorSearchProfile": "myHnswProfile",
      "searchable": true
    },
   . . . 
  ]

次の方法で共有

ベクトル検索用のバイナリベクトルのインデックス付け

前提条件

制限事項

ベクトル検索アルゴリズムとベクトルプロファイルを追加する

インデックスにバイナリフィールドを追加する

関連項目

フィードバック

その他のリソース

次の方法で共有

ベクトル検索用のバイナリ ベクトルのインデックス付け

前提条件

制限事項

ベクトル検索アルゴリズムとベクトル プロファイルを追加する

インデックスにバイナリ フィールドを追加する

関連項目

フィードバック

その他のリソース

ベクトル検索用のバイナリベクトルのインデックス付け

ベクトル検索アルゴリズムとベクトルプロファイルを追加する

インデックスにバイナリフィールドを追加する