Использование модели с поддержкой визуального зрения на портале Microsoft Foundry

Завершено

Подсказка

Дополнительные сведения см. на вкладке "Текст и изображения ".

Для обработки запросов, включающих изображения, необходимо развернуть многомодальную модель искусственного интеллекта. Другими словами, модель, которая поддерживает не только входные данные на основе текста, но и входные данные на основе изображений (и в некоторых случаях звуковые данные). Многомодальные модели, доступные в Microsoft Foundry, включают (среди прочего):

  • Microsoft Phi-4-multimodal-instruct
  • OpenAI gpt-4.1
  • OpenAI gpt-4.1-mini

Подсказка

Дополнительные сведения о доступных моделях в Microsoft Foundry см. в статье об обзоре моделей Microsoft Foundry в документации по Microsoft Foundry.

Тестирование многомодальных моделей с помощью запросов на основе изображений

После развертывания мультимодальной модели его можно протестировать на портале Microsoft Foundry на площадке чата.

Скриншот песочницы чата с подсказкой, основанной на изображениях.

На игровой площадке чата можно отправить изображение из локального файла и добавить текст в сообщение, чтобы вызвать ответ из многомодальной модели.