Поделиться через


GPT-4 Turbo с концепциями визуального зрения

GPT-4 Turbo с Vision — это большая многомодальная модель (LMM), разработанная OpenAI, которая может анализировать изображения и предоставлять текстовые ответы на вопросы о них. Он включает как обработку естественного языка, так и визуальное понимание. В этом руководстве содержатся сведения о возможностях и ограничениях GPT-4 Turbo с помощью Vision.

Чтобы попробовать GPT-4 Turbo с Vision, ознакомьтесь с кратким руководством.

Чаты с видением

GPT-4 Turbo с моделью визуального зрения отвечает на общие вопросы о том, что присутствует в изображениях или видео, которые вы отправляете.

Усовершенствования

Усовершенствования позволяют внедрять другие службы ИИ Azure (например, Azure AI Vision) для добавления новых функций в интерфейс чата с зрением.

Приземление объектов: Azure AI Vision дополняет GPT-4 Turbo с текстовым ответом Vision, определяя и размещая выделенные объекты в входных изображениях. Это позволяет модели чата предоставлять более точные и подробные ответы о содержимом изображения.

Внимание

Чтобы использовать усовершенствование визуального зрения, вам потребуется Компьютерное зрение ресурс. Он должен находиться на платном уровне (S1) и в том же регионе Azure, что и ваш GPT-4 Turbo с ресурсом Vision.

Screenshot of an image with object grounding applied. Objects have bounding boxes with labels.

Screenshot of a chat response to an image prompt about an outfit. The response is an itemized list of clothing items seen in the image.

Оптическое распознавание символов (OCR) Azure AI Vision дополняет GPT-4 Turbo с vision, предоставляя высококачественные результаты OCR в качестве дополнительных сведений в модели чата. Она позволяет модели создавать более качественные ответы на изображения с плотным текстом, преобразованными изображениями и цифрами, тяжелыми финансовыми документами, и увеличивает разнообразие языков, которые модель может распознать в тексте.

Внимание

Чтобы использовать усовершенствование визуального зрения, вам потребуется Компьютерное зрение ресурс. Он должен находиться на платном уровне (S1) и в том же регионе Azure, что и ваш GPT-4 Turbo с ресурсом Vision.

Photo of several receipts.

Screenshot of the JSON response of an OCR call.

Запрос видео: усовершенствование видео позволяет использовать видеоклипы в качестве входных данных для чата ИИ, что позволяет модели создавать сводки и ответы о видеоконтенте. В нем используется извлечение видео визуального распознавания Azure для выборки набора кадров из видео и создания расшифровки речи в видео.

Примечание.

Чтобы использовать усовершенствование запроса видео, вам потребуется как ресурс Azure AI Vision, так и платный (S1) в дополнение к ресурсу Azure OpenAI.

Специальные сведения о ценах

Внимание

Сведения о ценах могут быть изменены в будущем.

GPT-4 Turbo с Vision взимает плату, как и другие модели чата Azure OpenAI. Вы оплачиваете тариф на токены для запросов и завершения, подробные сведения на странице цен. Базовые расходы и дополнительные функции описаны здесь:

Базовая цена на GPT-4 Turbo с vision:

  • Входные данные: $0,01 за 1000 токенов
  • Выходные данные: $0,03 за 1000 токенов

Дополнительные сведения о том, как текст и изображения преобразуют в маркеры, см. в разделе "Маркеры".

Если включить усовершенствования, дополнительное использование применяется для использования GPT-4 Turbo с функцией Визуального распознавания Azure СИ.

Модель Цена,
+ Расширенные функции надстроек для OCR $1,5 за 1000 транзакций
+ Расширенные функции надстройки для обнаружения объектов $1,5 за 1000 транзакций
+ Расширенная функция надстройки для внедрения образов "Добавление образа" $1,5 за 1000 транзакций
+ Расширенная функция надстройки для интеграции "Извлечение видео" 1 Прием: $ 0,05 в минуту видео
Транзакции: $0,25 за 1000 запросов индекса извлечения видео

1 Обработка видео включает использование дополнительных маркеров для идентификации ключевых кадров для анализа. Число этих дополнительных маркеров будет примерно эквивалентно сумме маркеров в текстовом вводе, а также 700 маркеров.

Пример вычисления цен изображения

Внимание

Следующее содержимое является только примером, и цены могут быть изменены в будущем.

Для типичного варианта использования сделайте изображение как видимыми объектами, так и текстом, а также вводом запроса на 100 маркеров. При обработке запроса служба создает 100 маркеров выходных данных. На изображении можно обнаружить текст и объекты. Цена этой транзакции будет:

Товар Подробности Общий стоимость
GPT-4 Turbo с маркерами ввода визуального зрения 100 текстовых маркеров $0,001
Расширенные функции надстроек для OCR 1,50 долл. США / 1000 транзакций $0,0015
Расширенные функции надстройки для создания объектов 1,50 долл. США / 1000 транзакций $0,0015
Выходные маркеры 100 токенов (предполагается) $0,003
Общая стоимость 0,007 долл. США

Пример вычисления цен на видео

Внимание

Следующее содержимое является только примером, и цены могут быть изменены в будущем.

Для типичного варианта использования выполните 3-минутное видео с вводом запроса на 100 маркеров. Видео имеет расшифровку, которая имеет 100 маркеров длиной, и когда служба обрабатывает запрос, он создает 100 маркеров выходных данных. Цены на эту транзакцию будут следующими:

Товар Подробности Общий стоимость
GPT-4 Turbo с маркерами ввода визуального зрения 100 текстовых маркеров $0,001
Дополнительные затраты для идентификации кадров 100 входных маркеров + 700 маркеров + 1 транзакция получения видео $0,00825
Входные данные изображения и входные данные транскрибирования 20 изображений (85 токенов каждый) + 100 маркеров расшифровки $0,018
Выходные маркеры 100 токенов (предполагается) $0,003
Общая стоимость $0,03025

Кроме того, существует однократная стоимость индексирования $ 0,15 для создания индекса извлечения видео для этого 3-минутного видео. Этот индекс можно повторно использовать в любом количестве вызовов API видео и GPT-4 Turbo.

Ограничения

В этом разделе описываются ограничения GPT-4 Turbo с vision.

Поддержка изображений

  • Ограничение улучшений изображений на сеанс чата: улучшения нельзя применять к нескольким изображениям в одном вызове чата.
  • Максимальный размер входного изображения: максимальный размер входных изображений ограничен 20 МБ.
  • Приземление объектов в API улучшения: когда API улучшения используется для заземления объектов, и модель обнаруживает дубликаты объекта, она создаст один ограничивающий прямоугольник и метку для всех дубликатов, а не отдельных для каждого.
  • Низкая точность разрешения. При анализе изображений с помощью параметра "низкое разрешение" он позволяет ускорить ответы и использовать меньше маркеров ввода для определенных вариантов использования. Однако это может повлиять на точность распознавания объектов и текста в изображении.
  • Ограничение чата изображений. При отправке изображений в Azure OpenAI Studio или API существует ограничение в 10 изображений на звонок чата.

Поддержка видео

  • Низкое разрешение: видеокадры анализируются с помощью GPT-4 Turbo с параметром "низкое разрешение", что может повлиять на точность небольшого объекта и распознавания текста в видео.
  • Ограничения видеофайла: поддерживаются типы файлов MP4 и MOV. В Azure OpenAI Studio видео должно быть меньше 3 минут. При использовании API нет такого ограничения.
  • Ограничения запроса. Запросы видео содержат только одно видео и не содержат изображения. В Azure OpenAI Studio можно очистить сеанс, чтобы попробовать другое видео или изображения.
  • Ограниченный выбор кадров: служба выбирает 20 кадров из всего видео, которые могут не записывать все критические моменты или детали. Выбор кадра может быть приблизительно равномерно распределен по видео или сосредоточиться на определенном запросе на получение видео в зависимости от запроса.
  • Поддержка языка: служба в основном поддерживает английский язык для создания стенограмм. Расшифровки не предоставляют точную информацию о текстах песен.

Следующие шаги