Многомодальные модели для анализа изображений

7 мин

Замечание

Дополнительные сведения см. на вкладке "Текст и изображения ".

Все чаще новые модели искусственного интеллекта являются многомодальными. Другими словами, они поддерживают несколько типов входных данных, включая изображения и текст. Многомодальные модели — это модели ИИ, которые могут понять и работать с несколькими типами данных одновременно, такими как текст, изображения, аудио или видео. Например, мультимодальная модель может описать изображение на естественном языке или ответить на вопрос о фотографии.

Многомодальные модели обычно используются как часть:

Приложения ИИ, в которых понимание изображений улучшает рабочие процессы пользователей
Агенты ИИ, где визуальные данные помогают агенту принимать лучшие решения

Вот некоторые примеры.

Агент, который проверяет отправленные документы и снимки экрана
Приложение поддержки, которое анализирует фотографии, отправленные клиентами
Средство обучения, объясняющее схемы или диаграммы на простом языке

Так как многомодальные модели принимают как текст, так и изображения, они снижают потребность в отдельных конвейерах визуального распознавания и упрощают создание комплексных интеллектуальных интерфейсов.

Возможность моделей сочетать визуальное понимание с ответами на естественном языке называется моделями GPT с возможностью обработки визуальной информации или GPT с видением. Модели с поддержкой компьютерного зрения предназначены для гибкого визуального распознавания универсального назначения. Они могут анализировать визуальные данные и реагировать на естественный язык, что упрощает создание интеллектуальных приложений, не нуждаясь в глубоком опыте компьютерного зрения.

Многомодальные модели в Microsoft Foundry

Microsoft Foundry включает множество моделей, которые принимают входные данные на основе изображений, что позволяет создавать интеллектуальные решения на основе визуального распознавания. Многомодальные модели в Microsoft Foundry позволяют приложениям и агентам понимать, анализировать и делать выводы из изображений и визуального содержимого.

Например, модели GPT с поддержкой визуального зрения в Foundry могут:

Описание содержимого изображения на естественном языке
Ответы на вопросы об объектах, тексте или сценах на изображении
Извлечение значения из диаграмм, снимков экрана, документов или фотографий
Объединение распознавания изображений с текстовыми инструкциями в одном запросе

Каталог моделей Foundry содержит множество многомодальных моделей, включая:

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: эти модели многомодальных GPT общего назначения могут обрабатывать текст и изображения вместе. Они часто используются для описания изображений и визуального ответа на вопросы, анализа документов и снимков экрана, а также для интерпретации графиков и диаграмм.
Серия GPT-5 (например, GPT-5.1, GPT-5.2): семейство GPT-5, доступное в Foundry, включает расширенные многомодальные модели, предназначенные для корпоративных и агентических сценариев. Эти модели поддерживают многомодальные входные данные (включая текст и изображения), структурированные выходные данные и использование инструментов, а также рассуждения в большом контексте между модальностями. Модели серии GPT-5 обычно используются в агентах ИИ рабочего класса и сложных мультимодальных приложениях.

Foundry также размещает многомодальные модели, предоставляемые партнером, в каталоге моделей, включая модели от поставщиков, таких как Anthropic и другие, которые поддерживают распознавание текста и изображений.

Анализ изображений на детской площадке Foundry

Замечание

На портале Foundry есть классический пользовательский интерфейс и новый пользовательский интерфейс.

На новом портале Microsoft Foundry можно использовать песочницу модели, чтобы общаться с развернутой моделью. Вы можете выбрать модель с поддержкой визуального зрения, отправить изображения и тестовые запросы интерактивно, чтобы понять, как модель интерпретирует визуальную информацию.

Например, можно подключить файл изображения и получить многомодальную модель (например, gpt-4.1 mini), чтобы проанализировать и описать ее.

После проверки те же возможности можно получить программным способом с помощью API, что позволяет отправлять изображения вместе с текстовыми запросами в коде приложения.

Использование API OpenAI Azure для анализа изображений

Чтобы разработать приложение, необходимо перейти от игровой площадки Foundry к коду. В редакторе кода можно написать код приложения с помощью API ответов OpenAI в Foundry. API ответов OpenAI предназначен для агентических приложений и поддерживает собственные многомодальные входные данные (включая изображения).

На высоком уровне:

Один запрос может включать ввод текста и входные данные изображения вместе
Изображения могут быть предоставлены в виде URL-адресов или в виде данных изображения в кодировке Base64
Модель обрабатывает оба входных данных одновременно для создания ответа

Концептуально структура запроса выглядит следующим образом:

Текстовая инструкция (например, какие объекты отображаются на этом изображении?)
Один или несколько входных данных изображения, подключенных к одному запросу

Этот подход позволяет разработчикам создавать приложения, где пользователи отправляют изображения и задают вопросы о них в режиме реального времени.

Использование пакета SDK для Python для Azure OpenAI

Вы можете использовать ресурс Microsoft Foundry с API OpenAI для выполнения анализа изображений, включая отправку изображений в запросах и получение текстовых ответов с помощью API ответов с развертыванием модели с поддержкой визуального распознавания.

Пакет SDK для Python можно установить в терминале Visual Studio Code с помощью:

pip install openai

В редакторе кода можно создать один файл Python, содержащий код приложения. Важно, вам нужны ключ ресурса Foundry и конечная точка Foundry, а также имя развернутой модели.

Замечание

При развертывании модели в Foundry он имеет базовое или исходное имя и исходное имя развертывания , которое вы предоставляете. Foundry размещает развернутую модель (например, модели класса GPT со зрением) и предоставляет конечный URL.

В примере кода вы создадите клиент, укажите его на вашу конечную точку и передайте имя развертывания модели (имя, которое вы дали модели) в качестве MODEL_NAME.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

Пример клиентского приложения

Вы можете создать пользовательское приложение, использующее модель с поддержкой визуального распознавания для анализа изображения с помощью пакета SDK для Python OpenAI. Например, предположим, что вы хотите создать приложение, которое может идентифицировать животных, сфотографированных на Safari. Вы можете отправить фотографии и создать файл Python в редакторе кода.

Снимок экрана: изображение, используемое для анализа изображений.

Затем можно написать код приложения, использующий API OpenAI для подключения к конечной точке модели в Foundry.

Код приложения должен загрузить данные изображения и получить запрос естественного языка от пользователя. Чтобы отправить входные данные в модель, необходимо создать многокомпонентное сообщение, включающее как изображения, так и текстовые данные. Модель может реагировать на соответствующие выходные данные на основе текста и изображения в запросе.

Далее вы узнаете, как использовать модели Foundry и пакет SDK Azure OpenAI для создания образов.

Обратная связь

Были ли сведения на этой странице полезными?