GPT-4 Turbo с концепциями визуального зрения

Статья
09/26/2024

GPT-4 Turbo с Vision — это большая многомодальная модель (LMM), разработанная OpenAI, которая может анализировать изображения и предоставлять текстовые ответы на вопросы о них. Он включает как обработку естественного языка, так и визуальное понимание. В этом руководстве содержатся сведения о возможностях и ограничениях GPT-4 Turbo с помощью Vision.

Чтобы попробовать GPT-4 Turbo с Vision, ознакомьтесь с кратким руководством.

Чаты с видением

GPT-4 Turbo с моделью визуального зрения отвечает на общие вопросы о том, что присутствует в изображениях или видео, которые вы отправляете.

Специальные сведения о ценах

Внимание

Сведения о ценах могут быть изменены в будущем.

GPT-4 Turbo с Vision взимает плату, как и другие модели чата Azure OpenAI. Вы оплачиваете тариф на токены для запросов и завершения, подробные сведения на странице цен. Базовые расходы и дополнительные функции описаны здесь:

Базовая цена на GPT-4 Turbo с vision:

Входные данные: $0,01 за 1000 токенов
Выходные данные: $0,03 за 1000 токенов

Дополнительные сведения о том, как текст и изображения преобразуют в маркеры, см. в разделе "Маркеры".

Пример вычисления цен изображения

Внимание

Следующее содержимое является только примером, и цены могут быть изменены в будущем.

Для типичного варианта использования сделайте изображение как видимыми объектами, так и текстом, а также вводом запроса на 100 маркеров. При обработке запроса служба создает 100 маркеров выходных данных. На изображении можно обнаружить текст и объекты. Цена этой транзакции будет:

Товар	Подробный сведения	Себестоимость
Ввод текстового запроса	100 текстовых маркеров	$0,001
Пример входных данных изображения (см . маркеры изображения)	170 + 85 маркеров изображений	$0,00255
Расширенные функции надстроек для OCR	1,50 долл. США / 1000 транзакций	$0,0015
Расширенные функции надстройки для создания объектов	1,50 долл. США / 1000 транзакций	$0,0015
Выходные маркеры	100 токенов (предполагается)	$0,003
Всего		$0,00955

Пример вычисления цен на видео

Внимание

Следующее содержимое является только примером, и цены могут быть изменены в будущем.

Для типичного варианта использования выполните 3-минутное видео с вводом запроса на 100 маркеров. Видео имеет расшифровку, которая имеет 100 маркеров длиной, и когда служба обрабатывает запрос, он создает 100 маркеров выходных данных. Цены на эту транзакцию будут следующими:

Товар	Подробный сведения	Себестоимость
GPT-4 Turbo с маркерами ввода визуального зрения	100 текстовых маркеров	$0,001
Дополнительные затраты для идентификации кадров	100 входных маркеров + 700 маркеров + 1 транзакция получения видео	$0,00825
Входные данные изображения и входные данные транскрибирования	20 изображений (85 токенов каждый) + 100 маркеров расшифровки	$0,018
Выходные маркеры	100 токенов (предполагается)	$0,003
Всего		$0,03025

Кроме того, существует однократная стоимость индексирования $ 0,15 для создания индекса извлечения видео для этого 3-минутного видео. Этот индекс можно повторно использовать в любом количестве вызовов API видео и GPT-4 Turbo.

Ограничения ввода

В этом разделе описываются ограничения GPT-4 Turbo с vision.

Поддержка изображений

Максимальный размер входного изображения: максимальный размер входных изображений ограничен 20 МБ.
Низкая точность разрешения. При анализе изображений с помощью параметра "низкое разрешение" он позволяет ускорить ответы и использовать меньше маркеров ввода для определенных вариантов использования. Однако это может повлиять на точность распознавания объектов и текста в изображении.
Ограничение чата изображений. При отправке изображений в Azure OpenAI Studio или API существует ограничение в 10 изображений на звонок чата.

Поддержка видео

Низкое разрешение: видеокадры анализируются с помощью GPT-4 Turbo с параметром "низкое разрешение", что может повлиять на точность небольшого объекта и распознавания текста в видео.
Ограничения видеофайла: поддерживаются типы файлов MP4 и MOV. В Azure OpenAI Studio видео должно быть меньше 3 минут. При использовании API нет такого ограничения.
Ограничения запроса. Запросы видео содержат только одно видео и не содержат изображения. В Azure OpenAI Studio можно очистить сеанс, чтобы попробовать другое видео или изображения.
Ограниченный выбор кадров: служба выбирает 20 кадров из всего видео, которые могут не записывать все критические моменты или детали. Выбор кадра может быть приблизительно равномерно распределен по видео или сосредоточиться на определенном запросе на получение видео в зависимости от запроса.
Поддержка языка: служба в основном поддерживает английский язык для создания стенограмм. Расшифровки не предоставляют точную информацию о текстах песен.

Следующие шаги

Начало работы с GPT-4 Turbo с Vision, выполнив краткое руководство.
Дополнительные сведения об API и использовании видеосвязи в чате см . в руководстве.
См. справочник по API завершения и внедрения

Поделиться через

GPT-4 Turbo с концепциями визуального зрения

Чаты с видением

Специальные сведения о ценах

Пример вычисления цен изображения

Пример вычисления цен на видео

Ограничения ввода

Поддержка изображений

Поддержка видео

Следующие шаги

Обратная связь

Дополнительные ресурсы