Использование модели с поддержкой визуального зрения на портале Microsoft Foundry

3 мин

Подсказка

Дополнительные сведения см. на вкладке "Текст и изображения ".

Для обработки запросов, включающих изображения, необходимо развернуть многомодальную модель искусственного интеллекта. Другими словами, модель, которая поддерживает не только входные данные на основе текста, но и входные данные на основе изображений (и в некоторых случаях звуковые данные). Многомодальные модели, доступные в Microsoft Foundry, включают (среди прочего):

Microsoft Phi-4-multimodal-instruct
OpenAI gpt-4.1
OpenAI gpt-4.1-mini

Подсказка

Дополнительные сведения о доступных моделях в Microsoft Foundry см. в статье об обзоре моделей Microsoft Foundry в документации по Microsoft Foundry.

Тестирование многомодальных моделей с помощью запросов на основе изображений

После развертывания мультимодальной модели его можно протестировать на портале Microsoft Foundry на площадке чата.

Скриншот песочницы чата с подсказкой, основанной на изображениях.

На игровой площадке чата можно отправить изображение из локального файла и добавить текст в сообщение, чтобы вызвать ответ из многомодальной модели.

Обратная связь

Были ли сведения на этой странице полезными?