Поделиться через


Общие сведения о внедрении в Службе Azure OpenAI

Внедрение — это специальный формат представления данных, который модели машинного обучения и алгоритмы могут легко использовать. Внедрение представляет собой представление семантического значения фрагмента текста с высокой информационной плотностью. Каждое внедрение является вектором чисел с плавающей запятой, таким образом, расстояние между двумя внедрениями в векторное пространство сопоставляется с семантическим сходством между двумя входными данными в исходном формате. Например, если два текста похожи, их векторные представления также должны быть похожи. Внедрение поиска сходства вектора питания в системах извлечения, таких как поиск ИИ Azure (рекомендуется) и в базах данных Azure, таких как Azure Cosmos DB для виртуальных ядер MongoDB, База данных SQL Azure и База данных Azure для PostgreSQL — гибкий сервер.

Внедрение моделей

Внедрение упрощает машинное обучение для больших входных данных, представляющих слова, записывая семантические сходства в векторном пространстве. Таким образом, можно использовать внедрение, чтобы определить, связаны ли два фрагмента текста семантической или аналогичной, и предоставить оценку для оценки сходства.

Сходство косинуса

Внедрение Azure OpenAI часто зависит от совместности вычислений сходства между документами и запросом.

С точки зрения математики, косинус сходства измеряет косинус угла между двумя векторами, проецируемыми в многомерное пространство. Это измерение полезно, потому что если два документа далеко друг от друга по Евклидеан расстоянию из-за размера, они все еще могут иметь меньший угол между ними и, следовательно, более высокий косинус сходство. Дополнительные сведения о уравнениях сходства косинуса см. в статье о подобии Косина.

Альтернативным способом идентификации аналогичных документов является подсчет количества распространенных слов между документами. Этот подход не масштабируется, так как расширение размера документа, скорее всего, приведет к большему количеству распространенных слов, обнаруженных даже среди разрозненных тем. По этой причине сходство косинуса может предложить более эффективную альтернативу.

Следующие шаги