Краткое руководство. Начало работы с GPT-4 Turbo с vision на изображениях и видео в Azure AI Studio

Статья
05/21/2024

Внимание

Некоторые функции, описанные в этой статье, могут быть доступны только в предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Используйте эту статью, чтобы приступить к развертыванию и тестированию GPT-4 Turbo с моделью Визуального распознавания с помощью Azure AI Studio .

GPT-4 Turbo с Vision и Azure AI Vision предлагают расширенные функциональные возможности, в том числе:

Оптическое распознавание символов (OCR): извлекает текст из изображений и объединяет его с запросом пользователя и изображением для расширения контекста.
Приземление объектов: дополняет GPT-4 Turbo с текстовым ответом визуального распознавания с заземлением объектов и контурами в входных изображениях.
Запросы видео: GPT-4 Turbo с Vision может ответить на вопросы, извлекая видеокадры, наиболее важные для запроса пользователя.

Дополнительные сборы за использование могут применяться при использовании GPT-4 Turbo с функциями Визуального распознавания и Распознавания искусственного интеллекта Azure.

Необходимые компоненты

Подписка Azure — создайте бесплатную учетную запись.
Службе Azure OpenAI предоставлен доступ в требуемой подписке Azure В настоящее время доступ к этой службе предоставляется только приложением. Вы можете подать заявку на доступ к Azure OpenAI, выполнив форму по адресу https://aka.ms/oai/access. Если у вас возникли проблемы, создайте соответствующий запрос в этом репозитории, чтобы связаться с нами.
После получения подписки Azure создайте ресурс Azure OpenAI.
Центр AI Studio с ресурсом Azure OpenAI, добавленным в качестве подключения.

Подготовка носителя

Вам потребуется изображение для выполнения кратких руководств по изображению. Этот образ можно использовать или любой другой доступный образ.

Для запросов видео требуется видео, которое находится в течение трех минут.

Развертывание GPT-4 Turbo с моделью визуального зрения

Войдите в Azure AI Studio и выберите центр, в который вы хотите работать.
В меню навигации слева выберите службы ИИ. Выберите панель Try out GPT-4 Turbo.
На странице gpt-4 выберите "Развернуть". В появившемся окне выберите ресурс Azure OpenAI. Выберите vision-preview версию модели.
Выберите Развернуть.
Затем перейдите на страницу новой модели и выберите "Открыть на детской площадке". На игровой площадке чата в раскрывающемся списке развертывания необходимо выбрать созданное развертывание GPT-4.

В этом сеансе чата вы указываете помощник помочь в понимании входных изображений.

В текстовом поле "Системное сообщение" на вкладке "Системное сообщение" укажите этот запрос для указания помощник. "You're an AI assistant that helps people find information." Вы можете настроить запрос на изображение или сценарий.
Нажмите кнопку "Применить изменения" , чтобы сохранить изменения.
В области сеансов чата нажмите кнопку вложения и отправьте изображение. Выберите изображение.
Добавьте следующий вопрос в поле чата: "Describe this image"и щелкните значок стрелки вправо для отправки.
Значок стрелки вправо заменяется кнопкой "Остановить". Если выбрать его, помощник перестает обрабатывать запрос. В этом кратком руководстве позвольте помощник завершить ответ.
Помощник ответы с описанием изображения.
Задайте следующий вопрос, связанный с анализом изображения. Вы можете ввести, "What should I highlight about this image to my insurance company?".

Вы должны получить соответствующий ответ, аналогичный приведенному здесь:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

В этом сеансе чата вы указываете помощник помочь в понимании входных изображений. Попробуйте возможности дополненной модели визуального зрения.

В области "Улучшения" в левой части окна чата включите параметр для визуального зрения. В появившемся окне выберите ресурс Azure Компьютерное зрение.
В текстовом поле "Системное сообщение" на вкладке "Системное сообщение" укажите этот запрос для указания помощник. "You're an AI assistant that helps people find information." Вы можете настроить запрос на изображение или сценарий. Нажмите кнопку "Применить изменения" , чтобы сохранить изменения.
В области сеансов чата нажмите кнопку вложения и отправьте изображение. Выберите изображение.
Добавьте следующий вопрос в поле чата: "Describe this image"и щелкните значок стрелки вправо для отправки.
Значок стрелки вправо заменяется кнопкой "Остановить". Если выбрать его, помощник перестает обрабатывать запрос. В этом кратком руководстве позвольте помощник завершить ответ.
Помощник ответы с описанием изображения. Она использует службу визуального распознавания Azure для получения дополнительных сведений из загруженного образа.
Задайте следующий вопрос, связанный с анализом изображения. "What should I highlight about this image to my insurance company?" Введите и выберите значок стрелки вправо для отправки.

Вы должны получить соответствующий ответ, аналогичный приведенному здесь:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

В этом сеансе чата вы указываете помощник помочь в понимании видео, которые вы вводите. Помощник извлекает несколько кадров из видео и использует их для ответа на ваши вопросы.

В области "Улучшения" в левой части окна чата включите параметр для визуального зрения. В появившемся окне выберите ресурс Azure Компьютерное зрение.
В текстовом поле "Системное сообщение" на вкладке "Системное сообщение" укажите этот запрос для указания помощник. "You're an AI assistant that helps people find information." Вы можете настроить запрос на изображение или сценарий.
Нажмите кнопку "Применить изменения" , чтобы сохранить изменения.
В области сеансов чата нажмите кнопку вложения и отправьте видео. Выберите видео.
Введите текстовый запрос, например, "Provide details about this video"и выберите значок стрелки вправо для отправки.
Значок стрелки вправо заменяется кнопкой "Остановить". Если выбрать его, помощник перестает обрабатывать запрос. В этом кратком руководстве позвольте помощник завершить ответ.
Помощник должен ответить с описанием видео.
Вы можете задавать все последующие вопросы, связанные с анализом вашего видео.

Ограничения

Ниже приведены известные ограничения улучшения видео-запроса.

Низкое разрешение: кадры анализируются с помощью GPT-4 Turbo с параметром "низкое разрешение", что может повлиять на точность небольшого объекта и распознавания текста в видео.
Ограничения видеофайла: поддерживаются типы файлов MP4 и MOV. На игровой площадке Azure AI Studio видео должно быть менее 3 минут. При использовании API нет такого ограничения.
Ограничения запроса. Запросы видео содержат только одно видео и не содержат изображения. На игровой площадке вы можете очистить сеанс, чтобы попытаться использовать другое видео или изображения.
Ограниченный выбор кадров: в настоящее время система выбирает 20 кадров из всего видео, что может не захватывать все критические моменты или детали. Выбор кадра может равномерно распространяться по видео или сосредоточиться на определенном запросе на получение видео в зависимости от запроса.
Поддержка языка: в настоящее время система в основном поддерживает английский язык для заземления с расшифровками. Расшифровки не предоставляют точную информацию о текстах песен.

Просмотр и экспорт кода

В любой момент в сеансе чата можно включить переключатель Show raw JSON в верхней части окна чата, чтобы просмотреть беседу в формате JSON. Вот как выглядит в начале сеанса чата быстрого запуска:

[
	{
		"role": "system",
		"content": [
			"You are an AI assistant that helps people find information."
		]
	},
]

Очистка ресурсов

Чтобы избежать ненужных затрат Azure, следует удалить ресурсы, созданные в этом кратком руководстве, если они больше не нужны. Для управления ресурсами можно использовать портал Azure.

Следующие шаги

Создание проекта
Узнайте больше о Azure AI Vision.
Дополнительные сведения о моделях Azure OpenAI.

Поделиться через