Сведения о создании внедрений с помощью Azure OpenAI

Внедрением называют особый формат представления данных, который можно легко использовать в моделях и алгоритмах машинного обучения. Внедрение представляет собой представление семантического значения фрагмента текста с высокой информационной плотностью. Каждое внедрение представляет собой такой вектор чисел с плавающей запятой, что расстояние между двумя внедрениями в векторном пространстве коррелирует с семантическим сходством между двумя входными значениями в исходном формате. Например, если два текста похожи, их векторные представления также должны быть похожи. Внедрение поиска сходства вектора питания в базах данных Azure, таких как Azure Cosmos DB для виртуальных ядер MongoDB или База данных Azure для PostgreSQL — гибкий сервер.

Как получить внедрение

Чтобы получить вектор внедрения для фрагмента текста, мы создаем запрос к конечной точке внедрений, как показано в следующих фрагментах кода:

curl https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/embeddings?api-version=2024-02-01\
  -H 'Content-Type: application/json' \
  -H 'api-key: YOUR_API_KEY' \
  -d '{"input": "Sample Document goes here"}'

Рекомендации

Убедитесь, что входные данные не превышают максимальную длину

  • Максимальная длина входного текста для наших последних моделей внедрения — 8192 токенов. Перед выполнением запроса необходимо убедиться в том, что входные данные не превышают это ограничение.
  • Если отправка массива входных данных в одном запросе внедрения максимальный размер массива равен 2048.

Ограничения и риски

В некоторых случаях наши модели внедрения могут быть ненадежными или представлять социальные риски и в отсутствие смягчающих мер могут причинить вред. Ознакомьтесь с нашими материалами по ответственному применению искусственного интеллекта.

Следующие шаги