Поделиться через


Общие сведения о внедрении в Службе Azure OpenAI

Внедрение — это специальный формат представления данных, который модели машинного обучения и алгоритмы могут легко использовать. Внедрение представляет собой представление семантического значения фрагмента текста с высокой информационной плотностью. Каждое внедрение является вектором чисел с плавающей запятой, таким образом, расстояние между двумя внедрениями в векторное пространство сопоставляется с семантическим сходством между двумя входными данными в исходном формате. Например, если два текста похожи, их векторные представления также должны быть похожи. Внедрение поиска сходства векторов питания в базах данных Azure, таких как Azure Cosmos DB для виртуальных ядер MongoDB, База данных SQL Azure или База данных Azure для PostgreSQL — гибкий сервер.

Внедрение моделей

Для конкретной задачи создаются различные модели внедрения Azure OpenAI:

  • Внедрение сходства хорошо подходит для записи семантической сходства между двумя или более фрагментами текста.
  • Внедрение текста помогает определить, имеют ли длинные документы, относящиеся к короткому запросу.
  • Внедрения поиска кода полезны для внедрения фрагментов кода и внедрения запросов поиска естественного языка.

Внедрение упрощает машинное обучение для больших входных данных, представляющих слова, записывая семантические сходства в векторном пространстве. Таким образом, можно использовать внедрение, чтобы определить, связаны ли два фрагмента текста семантической или аналогичной, и предоставить оценку для оценки сходства.

Сходство косинуса

Внедрение Azure OpenAI зависит от совместности вычислений сходства между документами и запросом.

С точки зрения математики, косинус сходства измеряет косинус угла между двумя векторами, проецируемыми в многомерное пространство. Это измерение полезно, потому что если два документа далеко друг от друга по Евклидеан расстоянию из-за размера, они все еще могут иметь меньший угол между ними и, следовательно, более высокий косинус сходство. Дополнительные сведения о уравнениях сходства косинуса см. в статье о подобии Косина.

Альтернативным способом идентификации аналогичных документов является подсчет количества распространенных слов между документами. Этот подход не масштабируется, так как расширение размера документа, скорее всего, приведет к большему количеству распространенных слов, обнаруженных даже среди разрозненных тем. По этой причине сходство косинуса может предложить более эффективную альтернативу.

Следующие шаги