Общие сведения о внедрении

Завершено

Внедрение — это тип представления данных, используемого моделями машинного обучения. Внедрение представляет семантический смысл фрагмента текста. Вы можете визуализировать внедрение в виде массива чисел, а числовое расстояние между двумя внедрениями представляет их семантику семантического сходства. Например, если два текста похожи, то их представления также должны быть похожими.

Внедрение моделей

Насколько эффективными будут результаты поиска, является прямое ядро к эффективности внедренной модели.

Существуют модели, специально созданные для выполнения конкретной задачи. Используйте внедрения поиска сходства для отслеживания семантической сходства между частями текста; внедрение поиска текста может взглянуть на релевантность длинного документа к короткому запросу; используйте фрагменты кода и запросы поиска естественного языка с помощью внедрения поиска кода.

Пользователи предоставляют входные данные для запроса для модели внедрения, которая преобразуется из текста в вектор, например модель внедрения текста ada-002 для создания внедрения текста.

Результатом будет любой документ, соответствующий запросу, который содержится в индексе поиска. Документы, содержащие векторные поля, должны существовать в индексе поиска и той же модели, которая должна использоваться для индексирования и запроса.

Внедрение пространства

Пространство внедрения является ядром векторных запросов, составляющих все поля векторов из одной модели внедрения. Он состоит из всех полей векторов, заполненных одной и той же моделью.

В этом пространстве внедрения аналогичные элементы находятся близко друг к другу, а другие элементы находятся дальше друг от друга.

Например, документы, которые говорят о отелях с водяным парком, будут близки вместе в пространстве внедрения. в то время как отели без этого объекта будут дальше, в то время как все еще находится в районе для отелей. Различные понятия, такие как рестораны, будут дальше до сих пор. На практике внедрение пробелов абстрактно и не имеет четко определенных значений, понятных для людей, но основная идея остается одной и той же.