Многомодальные внедрения (версия 4.0)

Многомодальное внедрение — это процесс создания числового представления изображения, который фиксирует его функции и характеристики в формате вектора. Эти векторы кодируют содержимое и контекст изображения таким образом, который совместим с текстовым поиском по одному и тому же векторному пространству.

Системы извлечения изображений традиционно используют функции, извлеченные из изображений, например метки содержимого, теги и дескрипторы изображений, для сравнения изображений и ранжирования их по сходству. Однако поиск сходства векторов становится более популярным из-за ряда преимуществ по сравнению с традиционным поиском на основе ключевое слово и становится важным компонентом в популярных службах поиска контента.

Поиск ключевых слов — это самый базовый и традиционный метод получения информации. В этом подходе поисковая система ищет точное соответствие ключевое слово или фраз, введенных пользователем в поисковом запросе, и сравнивает их с метками и тегами, предоставленными для изображений. Затем поисковая система возвращает изображения, содержащие эти точные ключевое слово в виде тегов содержимого и меток изображений. Поиск ключевых слов сильно зависит от возможности пользователя использовать соответствующие и конкретные условия поиска.

Поиск векторов выполняет поиск больших коллекций векторов в высокомерном пространстве, чтобы найти векторы, аналогичные заданному запросу. Поиск векторов ищет семантические сходства путем записи контекста и значения поискового запроса. Этот подход часто более эффективен, чем традиционные методы извлечения изображений, так как это может уменьшить пространство поиска и повысить точность результатов.

Бизнес-приложения.

Многомодальное внедрение имеет различные приложения в различных полях, включая:

  • Управление цифровыми активами: многомодальное внедрение можно использовать для управления большими коллекциями цифровых изображений, например в музеях, архивах или онлайн-галереях. Пользователи могут искать изображения на основе визуальных функций и извлекать изображения, соответствующие их критериям.
  • Безопасность и наблюдение: векторизация может использоваться в системах безопасности и наблюдения для поиска изображений на основе определенных функций или шаблонов, таких как, отслеживание людей и объектов, или обнаружение угроз.
  • Получение судебно-медицинских изображений: векторизация может использоваться в судебно-медицинских расследованиях для поиска изображений на основе их визуального содержимого или метаданных, таких как в случаях кибер-преступности.
  • Электронная коммерция: векторизация может использоваться в онлайн-магазинах для поиска похожих продуктов на основе их функций или описаний или предоставления рекомендаций на основе предыдущих покупок.
  • Мода и дизайн: векторизация может использоваться в моде и дизайне для поиска изображений на основе их визуальных признаков, таких как цвет, шаблон или текстура. Это может помочь дизайнерам или розничным продавцам определить аналогичные продукты или тенденции.

Внимание

Многомодальное внедрение не предназначено для анализа медицинских изображений для диагностических признаков или шаблонов заболеваний. Не используйте многомодальное внедрение для медицинских целей.

Что такое векторные внедрения?

Векторные внедрения — это способ представления содержимого ( текста или изображений) в виде векторов реальных чисел в высокомерном пространстве. Внедрение векторов часто извлекаются из больших объемов текстовых и визуальных данных с помощью алгоритмов машинного обучения, таких как нейронные сети.

Каждое измерение вектора соответствует другому признаку или атрибуту содержимого, например его семантическому значению, синтаксической роли или контексту, в котором он обычно отображается. В Azure AI Vision внедренные изображения и текстовые векторы имеют 1024 измерения.

Внимание

Векторные внедрения можно сравнить только и сопоставить, если они совпадают с тем же типом модели. Изображения, векторизированные одной моделью, не будут выполнять поиск по другой модели. Последняя версия API анализа изображений предлагает две модели, которая 2023-04-15 поддерживает поиск текста на многих языках и устаревшую 2022-04-11 модель, которая поддерживает только английский язык.

Как это работает?

Ниже приведены основные шаги процесса извлечения изображений с помощью многомодальных внедрения.

Diagram of image retrieval process.

  1. Векторизация изображений и текста: API-интерфейсы многомодальных внедрения, VectorizeImage и VectorizeText можно использовать для извлечения векторов признаков из изображения или текста соответственно. API возвращают один вектор признаков, представляющий весь вход.

    Примечание.

    Многомодальное внедрение не делает никакой биография метрики обработки человеческих лиц. Сведения об обнаружении и идентификации лиц см. в службе распознавания лиц Azure AI.

  2. Измерение сходства: системы поиска в векторов обычно используют метрики расстояния, такие как расстояние косинуса или Евклиданское расстояние, для сравнения векторов и ранжирования их по подобию. В демонстрации Vision Studio используется косине расстояние для измерения сходства.

  3. Получение изображений. Используйте верхние N-векторы , аналогичные поисковому запросу, и извлеките изображения, соответствующие этим векторам из библиотеки фотографий, чтобы предоставить в качестве окончательного результата.

Оценка релевантности

Службы извлечения изображений и видео возвращают поле с именем "релевантность". Термин "релевантность" обозначает меру оценки сходства между запросом и изображением или внедрением видеокадров. Оценка релевантности состоит из двух частей:

  1. Сходство косинуса (которое попадает в диапазон [0,1]) между запросом и изображением или внедрением видеокадров.
  2. Оценка метаданных, которая отражает сходство между запросом и метаданными, связанными с изображением или видеокадром.

Внимание

Оценка релевантности является хорошей мерой для ранжирования результатов, таких как изображения или видеокадры в отношении одного запроса. Однако оценка релевантности не может быть точно сравниваема между запросами. Поэтому невозможно легко сопоставить оценку релевантности с уровнем достоверности. Кроме того, не удается тривиально создать алгоритм порогового значения, чтобы исключить неуместные результаты, основанные исключительно на оценке релевантности.

Требования к входным данным

Входные данные изображения

  • Размер файла изображения должен быть меньше 20 мегабайт (МБ)
  • Размеры изображения должны быть больше 10 x 10 пикселей и менее 16 000 x 16 000 пикселей

Ввод текста

  • Текстовая строка должна быть между (включающими) одним словом и 70 словами.

Следующие шаги

Включите многомодальные внедрения для службы поиска и выполните действия по созданию векторных внедрений для текста и изображений.