Реализация интегрированной векторизации с помощью моделей из Azure AI Studio

Статья
09/01/2024

Внимание

Эта функция предоставляется в общедоступной предварительной версии, и к ней применяются дополнительные Условия использования. REST API 2024-05-01-Preview поддерживает эту функцию.

В этой статье вы узнаете, как получить доступ к моделям внедрения в каталог моделей Azure AI Studio для преобразования векторов во время индексирования и запросов в поиске ИИ Azure.

Рабочий процесс включает этапы развертывания модели. Каталог моделей включает в себя внедрение моделей из Azure OpenAI, Cohere, Facebook и OpenAI. Развертывание модели оплачивается по структуре выставления счетов каждого поставщика.

После развертывания модели его можно использовать для интегрированной векторизации во время индексирования или с векторизатором AI Studio для запросов.

Развертывание модели внедрения из каталога моделей Azure AI Studio

Откройте каталог моделей Azure AI Studio.
Примените фильтр, чтобы отобразить только модели внедрения. В разделе задач вывода выберите "Внедрение":
Выберите модель, с помощью векторизируемой содержимого. Затем нажмите кнопку "Развернуть " и выберите вариант развертывания.
Укажите запрошенные сведения. Выберите или создайте проект ИИ, а затем нажмите кнопку "Развернуть". Сведения о развертывании зависят от выбранной модели.
Дождитесь завершения развертывания модели, отслеживая состояние подготовки. Он должен измениться с "Подготовка" на "Обновление" на "Успешно". Чтобы просмотреть обновление состояния, может потребоваться выбрать "Обновить " каждые несколько минут.
Скопируйте URL-адрес, первичный ключ и поля идентификатора модели и установите их в сторону позже. Эти значения требуются для определения векторизатора в индексе поиска и набора навыков, вызывающего конечные точки модели во время индексирования.

При необходимости можно изменить конечную точку, чтобы использовать проверку подлинности маркера вместо проверки подлинности ключа. Если вы включите проверку подлинности маркеров, необходимо скопировать ТОЛЬКО URL-адрес и идентификатор модели, а также запишите регион, в котором развертывается модель.
Теперь можно настроить индекс поиска и индексатор для использования развернутой модели.
- Сведения об использовании модели во время индексирования см . в шагах по включению встроенной векторизации. Не забудьте использовать навык Машинное обучение Azure (AML), а не навык AzureOpenAIEmbedding. В следующем разделе описывается конфигурация навыка.
- Сведения об использовании модели в качестве векторизатора во время запроса см. в разделе "Настройка векторизатора". Не забудьте использовать векторизатор каталога моделей Azure AI Studio для этого шага.

Пример полезных данных навыка AML

При развертывании моделей внедрения из каталога моделей Azure AI Studio вы подключаетесь к ним с помощью навыка AML в поиске ИИ Azure для индексирования рабочих нагрузок.

В этом разделе описаны определения навыка AML и сопоставления индексов. Он включает примеры полезных данных, которые уже настроены для работы с соответствующими развернутыми конечными точками. Дополнительные технические сведения о работе этих полезных данных см. в разделе о контексте навыка и языке заметок ввода.

Эта полезные данные навыка AML работает со следующими моделями из AI Studio:

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

Предполагается, что вы фрагментируете содержимое с помощью навыка разделения текста и что текст, векторизированный находится в /document/pages/* пути. Если текст поступает из другого пути, обновите все ссылки на /document/pages/* путь соответствующим образом.

URI и ключ создаются при развертывании модели из каталога. Дополнительные сведения об этих значениях см. в статье "Развертывание больших языковых моделей с помощью Azure AI Studio".

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "<YOUR_MODEL_URL_HERE>",
  "key": "<YOUR_MODEL_KEY_HERE>",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/pages/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[['', $(/document/pages/*)]]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "text_features"
    }
  ]
}

Эта полезные данные навыка AML работает со следующими моделями из AI Studio:

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336
Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant

Предполагается, что изображения приходят из пути, созданного путем включения встроенного /document/normalized_images/* извлечения изображений. Если изображения приходят из другого пути или хранятся в качестве URL-адресов, обновите все ссылки на /document/normalized_images/* путь в соответствии с.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/normalized_images/*",
  "uri": "<YOUR_MODEL_URL_HERE>",
  "key": "<YOUR_MODEL_HERE>",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/normalized_images/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[[$(/document/normalized_images/*/data), '']]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "image_features"
    }
  ]
}

Эта полезные данные навыка AML работает со следующими моделями из AI Studio:

Cohere-embed-v3-english
Cohere-embed-v3-многоязычный

Предполагается, что вы блокируете содержимое с помощью SplitSkill, поэтому векторизованный текст находится в /document/pages/* пути. Если текст поступает из другого пути, обновите все ссылки на /document/pages/* путь в соответствии.

Необходимо добавить /v1/embed путь к концу URL-адреса, скопированного из развертывания AI Studio. Вы также можете изменить значения для input_typetruncate входных данных, embedding_types чтобы лучше соответствовать вашему варианту использования. Дополнительные сведения о доступных вариантах см . в справочнике по API внедрения Cohere.

URI и ключ создаются при развертывании модели из каталога. Дополнительные сведения об этих значениях см. в статье о развертывании моделей внедрения Cohere с помощью Azure AI Studio.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "<YOUR_MODEL_URL_HERE>/v1/embed",
  "key": "<YOUR_MODEL_KEY_HERE>",
  "inputs": [
    {
      "name": "texts",
      "source": "=[$(/document/pages/*)]"
    },
    {
      "name": "input_type",
      "source": "='search_document'"
    },
    {
      "name": "truncate",
      "source": "='NONE'"
    },
    {
      "name": "embedding_types",
      "source": "=['float']"
    }
  ],
  "outputs": [
    {
      "name": "embeddings",
      "targetName": "aml_vector_data"
    }
  ]
}

Кроме того, выходные данные модели Cohere не является массивом внедрения напрямую, а объектом JSON, содержащим его. При сопоставлении его с определением indexProjections индекса необходимо выбрать соответствующим outputFieldMappingsобразом. Ниже приведен пример indexProjections полезных данных, позволяющих реализовать это сопоставление.

Если вы выбрали другое embedding_types в определении навыка, необходимо изменить float source путь к соответствующему типу, который вы выбрали.

"indexProjections": {
  "selectors": [
    {
      "targetIndexName": "<YOUR_TARGET_INDEX_NAME_HERE>",
      "parentKeyFieldName": "ParentKey", // Change this to the name of the field in your index definition where the parent key will be stored
      "sourceContext": "/document/pages/*",
      "mappings": [
        {
          "name": "aml_vector", // Change this to the name of the field in your index definition where the Cohere embedding will be stored
          "source": "/document/pages/*/aml_vector_data/float/0"
        }
      ]
    }
  ],
  "parameters": {}
}

Пример полезных данных векторизатора AI Studio

Векторизатор AI Studio, в отличие от навыка AML, предназначен для работы только с теми моделями внедрения, которые можно развернуть с помощью каталога моделей AI Studio. Основное отличие заключается в том, что вам не нужно беспокоиться о полезных данных запроса и ответа, но вам нужно предоставить modelNameидентификатор модели, который соответствует идентификатору модели, скопированной после развертывания модели в AI Studio.

Ниже приведен пример полезных данных о настройке векторизатора в определении индекса с учетом свойств, скопированных из AI Studio.

Для моделей Cohere не следует добавлять /v1/embed путь к концу URL-адреса, как это было с навыком.

"vectorizers": [
    {
        "name": "<YOUR_VECTORIZER_NAME_HERE>",
        "kind": "aml",
        "amlParameters": {
            "uri": "<YOUR_URL_HERE>",
            "key": "<YOUR_PRIMARY_KEY_HERE>",
            "modelName": "<YOUR_MODEL_ID_HERE>"
        },
    }
]

Подключение с помощью проверки подлинности маркера

Если вы не можете использовать проверку подлинности на основе ключей, можно настроить подключение навыка AML и векторизатора AI Studio для проверки подлинности маркеров с помощью управления доступом на основе ролей в Azure. Служба поиска должна иметь управляемое удостоверение, назначаемое пользователем, а удостоверение должно иметь разрешения владельца или участника для рабочей области проекта AML. Затем можно удалить ключевое поле из определения навыка и векторизатора, заменив его полем resourceId. Если проект AML и служба поиска находятся в разных регионах, укажите поле региона.

"uri": "<YOUR_URL_HERE>",
"resourceId": "subscriptions/<YOUR_SUBSCRIPTION_ID_HERE>/resourceGroups/<YOUR_RESOURCE_GROUP_NAME_HERE>/providers/Microsoft.MachineLearningServices/workspaces/<YOUR_AML_WORKSPACE_NAME_HERE>/onlineendpoints/<YOUR_AML_ENDPOINT_NAME_HERE>",
"region": "westus", // Only need if AML project lives in different region from search service

Поделиться через

Реализация интегрированной векторизации с помощью моделей из Azure AI Studio

Развертывание модели внедрения из каталога моделей Azure AI Studio

Пример полезных данных навыка AML

Пример полезных данных векторизатора AI Studio

Подключение с помощью проверки подлинности маркера

Следующие шаги

Обратная связь

Дополнительные ресурсы