Многомодальные модели для анализа изображений
Замечание
Дополнительные сведения см. на вкладке "Текст и изображения ".
Все чаще новые модели искусственного интеллекта являются многомодальными. Другими словами, они поддерживают несколько типов входных данных, включая изображения и текст. Многомодальные модели — это модели ИИ, которые могут понять и работать с несколькими типами данных одновременно, такими как текст, изображения, аудио или видео. Например, мультимодальная модель может описать изображение на естественном языке или ответить на вопрос о фотографии.
Многомодальные модели обычно используются как часть:
- Приложения ИИ, в которых понимание изображений улучшает рабочие процессы пользователей
- Агенты ИИ, где визуальные данные помогают агенту принимать лучшие решения
Вот некоторые примеры.
- Агент, который проверяет отправленные документы и снимки экрана
- Приложение поддержки, которое анализирует фотографии, отправленные клиентами
- Средство обучения, объясняющее схемы или диаграммы на простом языке
Так как многомодальные модели принимают как текст, так и изображения, они снижают потребность в отдельных конвейерах визуального распознавания и упрощают создание комплексных интеллектуальных интерфейсов.
Возможность моделей сочетать визуальное понимание с ответами на естественном языке называется моделями GPT с возможностью обработки визуальной информации или GPT с видением. Модели с поддержкой компьютерного зрения предназначены для гибкого визуального распознавания универсального назначения. Они могут анализировать визуальные данные и реагировать на естественный язык, что упрощает создание интеллектуальных приложений, не нуждаясь в глубоком опыте компьютерного зрения.
Многомодальные модели в Microsoft Foundry
Microsoft Foundry включает множество моделей, которые принимают входные данные на основе изображений, что позволяет создавать интеллектуальные решения на основе визуального распознавания. Многомодальные модели в Microsoft Foundry позволяют приложениям и агентам понимать, анализировать и делать выводы из изображений и визуального содержимого.
Например, модели GPT с поддержкой визуального зрения в Foundry могут:
- Описание содержимого изображения на естественном языке
- Ответы на вопросы об объектах, тексте или сценах на изображении
- Извлечение значения из диаграмм, снимков экрана, документов или фотографий
- Объединение распознавания изображений с текстовыми инструкциями в одном запросе
Каталог моделей Foundry содержит множество многомодальных моделей, включая:
GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: эти модели многомодальных GPT общего назначения могут обрабатывать текст и изображения вместе. Они часто используются для описания изображений и визуального ответа на вопросы, анализа документов и снимков экрана, а также для интерпретации графиков и диаграмм.
Серия GPT-5 (например, GPT-5.1, GPT-5.2): семейство GPT-5, доступное в Foundry, включает расширенные многомодальные модели, предназначенные для корпоративных и агентических сценариев. Эти модели поддерживают многомодальные входные данные (включая текст и изображения), структурированные выходные данные и использование инструментов, а также рассуждения в большом контексте между модальностями. Модели серии GPT-5 обычно используются в агентах ИИ рабочего класса и сложных мультимодальных приложениях.
Foundry также размещает многомодальные модели, предоставляемые партнером, в каталоге моделей, включая модели от поставщиков, таких как Anthropic и другие, которые поддерживают распознавание текста и изображений.
Анализ изображений на детской площадке Foundry
Замечание
На портале Foundry есть классический пользовательский интерфейс и новый пользовательский интерфейс.
На новом портале Microsoft Foundry можно использовать песочницу модели, чтобы общаться с развернутой моделью. Вы можете выбрать модель с поддержкой визуального зрения, отправить изображения и тестовые запросы интерактивно, чтобы понять, как модель интерпретирует визуальную информацию.
Например, можно подключить файл изображения и получить многомодальную модель (например, gpt-4.1 mini), чтобы проанализировать и описать ее.
После проверки те же возможности можно получить программным способом с помощью API, что позволяет отправлять изображения вместе с текстовыми запросами в коде приложения.
Использование API OpenAI Azure для анализа изображений
Чтобы разработать приложение, необходимо перейти от игровой площадки Foundry к коду. В редакторе кода можно написать код приложения с помощью API ответов OpenAI в Foundry. API ответов OpenAI предназначен для агентических приложений и поддерживает собственные многомодальные входные данные (включая изображения).
На высоком уровне:
- Один запрос может включать ввод текста и входные данные изображения вместе
- Изображения могут быть предоставлены в виде URL-адресов или в виде данных изображения в кодировке Base64
- Модель обрабатывает оба входных данных одновременно для создания ответа
Концептуально структура запроса выглядит следующим образом:
- Текстовая инструкция (например, какие объекты отображаются на этом изображении?)
- Один или несколько входных данных изображения, подключенных к одному запросу
Этот подход позволяет разработчикам создавать приложения, где пользователи отправляют изображения и задают вопросы о них в режиме реального времени.
Использование пакета SDK для Python для Azure OpenAI
Вы можете использовать ресурс Microsoft Foundry с API OpenAI для выполнения анализа изображений, включая отправку изображений в запросах и получение текстовых ответов с помощью API ответов с развертыванием модели с поддержкой визуального распознавания.
Пакет SDK для Python можно установить в терминале Visual Studio Code с помощью:
pip install openai
В редакторе кода можно создать один файл Python, содержащий код приложения. Важно, вам нужны ключ ресурса Foundry и конечная точка Foundry, а также имя развернутой модели.
Замечание
При развертывании модели в Foundry он имеет базовое или исходное имя и исходное имя развертывания , которое вы предоставляете. Foundry размещает развернутую модель (например, модели класса GPT со зрением) и предоставляет конечный URL.
В примере кода вы создадите клиент, укажите его на вашу конечную точку и передайте имя развертывания модели (имя, которое вы дали модели) в качестве MODEL_NAME.
import os
from openai import OpenAI
# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name" # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"
client = OpenAI(
api_key=os.getenv("FOUNDRY_KEY"),
base_url=os.getenv("ENDPOINT"),
)
image_url = ""
response = client.responses.create(
model=os.getenv("MODEL_NAME"), # your deployment name
input=[
{
"role": "user",
"content": [
{"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
{"type": "input_image", "image_url": image_url}
],
}
],
)
print(response.output_text)
Пример клиентского приложения
Вы можете создать пользовательское приложение, использующее модель с поддержкой визуального распознавания для анализа изображения с помощью пакета SDK для Python OpenAI. Например, предположим, что вы хотите создать приложение, которое может идентифицировать животных, сфотографированных на Safari. Вы можете отправить фотографии и создать файл Python в редакторе кода.
Затем можно написать код приложения, использующий API OpenAI для подключения к конечной точке модели в Foundry.
Код приложения должен загрузить данные изображения и получить запрос естественного языка от пользователя. Чтобы отправить входные данные в модель, необходимо создать многокомпонентное сообщение, включающее как изображения, так и текстовые данные. Модель может реагировать на соответствующие выходные данные на основе текста и изображения в запросе.
Далее вы узнаете, как использовать модели Foundry и пакет SDK Azure OpenAI для создания образов.