Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Встраивания — это способ передачи семантического значения в LLM. Они представляют собой числовые представления нечисловых данных, которые LLM может использовать для определения связей между понятиями. Используйте внедрение, чтобы помочь модели искусственного интеллекта понять смысл входных данных, чтобы она могло выполнять сравнения и преобразования, например суммирование текста или создание изображений из текстовых описаний. LLM может немедленно использовать векторы, и вы можете хранить векторы в векторных базах данных, чтобы обеспечить семантическую память для LLM по мере необходимости.
Варианты использования для встраивания
Использование собственных данных для повышения релевантности завершения
Используйте собственные базы данных для создания внедренных данных и интеграции их с LLM, чтобы сделать его доступным для завершения. Это использование эмбеддингов является важным компонентом генерации с дополнением за счёт поиска.
Увеличьте объем текста, который можно поместить в запрос
Используйте встраивания, чтобы увеличить объем контекста, который можно поместить в запрос, не увеличивая число токенов.
Например, предположим, что вы хотите включить в запрос 500 страниц текста. Количество токенов для этого объема неотформатированного текста превышает предел входных токенов, что делает невозможным его прямое включение в запрос. Вы можете использовать внедрения, чтобы суммировать и разбить большие объемы этого текста на части, которые достаточно малы, чтобы поместить в один вход, а затем оценить сходство каждого фрагмента со всем необработанным текстом. Затем можно выбрать часть, которая лучше всего сохраняет семантический смысл необработанного текста, и использовать её в запросе, без достижения предела токенов.
Выполнение классификации текста, суммирования или перевода
Используйте внедрения, чтобы помочь модели понять смысл и контекст текста, а затем классифицировать, суммировать или переводить этот текст. Например, можно использовать внедрение, чтобы помочь моделям классифицировать тексты как положительные или отрицательные, спам или не спам, новости или мнение.
Создание и транскрибирование звука
Используйте внедренные аудиофайлы для обработки звуковых файлов или входных данных в приложении.
Например, Azure Speech in Foundry Tools поддерживает ряд аудио эмбеддингов, включая речь в текст и текст в речь. Звук можно обрабатывать в режиме реального времени или в пакетах.
Преобразование текста в изображения или изображения в текст
Обработка семантического изображения требует внедрения изображений, которые большинство LLM не могут создавать. Используйте модель встраивания изображений, например ViT, для создания векторных представлений изображений. Затем можно использовать эти внедрения с моделью создания изображений для создания или изменения изображений с помощью текста или наоборот. Например, можно использовать модель DALL·E для создания изображений таких как логотипы, лица, животные и пейзажи.
Создание или документирование кода
Используйте внедрение, чтобы помочь модели создать код из текста или наоборот, преобразовав различные выражения кода или текста в общее представление. Например, можно использовать внедрение, чтобы помочь модели создать или документировать код в C# или Python.
Выбор модели внедрения
Вы создаете внедрения для необработанных данных с помощью модели внедрения ИИ, которая может кодировать нечисловые данные в вектор (длинный массив чисел). Модель также может декодировать внедрение в нечисловые данные, которые имеют то же или аналогичное значение, что и исходные, необработанные данные. OpenAI text-embedding-3-small и text-embedding-3-large являются рекомендуемыми в настоящее время моделями внедрения, заменяя старые text-embedding-ada-002. Дополнительные примеры см. в списке моделей Embedding, доступных в Azure OpenAI.
Хранение и обработка эмбеддингов в векторной базе данных
После создания внедрения вам потребуется способ их хранения, чтобы позже получить их с помощью вызовов LLM. Векторные базы данных предназначены для хранения и обработки векторов, поэтому они являются естественной средой для эмбеддингов. Различные векторные базы данных предлагают различные возможности обработки, поэтому вы должны выбрать одну из них на основе необработанных данных и целей. Для получения информации о ваших вариантах см. базы данных Vector для .NET + AI.
Использование эмбедингов в решении на основе LLM
При создании приложений на основе LLM можно использовать Agent Framework для интеграции моделей внедрения и векторных хранилищ, чтобы быстро извлекать текстовые данные и создавать и хранить внедрения. Это позволяет использовать векторное решение базы данных для хранения и получения семантических воспоминаний.