Поделиться через


Краткое руководство. Начало работы с GPT-4 Turbo с vision на изображениях и видео в Azure AI Studio

Внимание

Некоторые функции, описанные в этой статье, могут быть доступны только в предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Используйте эту статью, чтобы приступить к развертыванию и тестированию GPT-4 Turbo с моделью Визуального распознавания с помощью Azure AI Studio .

GPT-4 Turbo с Vision и Azure AI Vision предлагают расширенные функциональные возможности, в том числе:

  • Оптическое распознавание символов (OCR): извлекает текст из изображений и объединяет его с запросом пользователя и изображением для расширения контекста.
  • Приземление объектов: дополняет GPT-4 Turbo с текстовым ответом визуального распознавания с заземлением объектов и контурами в входных изображениях.
  • Запросы видео: GPT-4 Turbo с Vision может ответить на вопросы, извлекая видеокадры, наиболее важные для запроса пользователя.

Дополнительные сборы за использование могут применяться при использовании GPT-4 Turbo с функциями Визуального распознавания и Распознавания искусственного интеллекта Azure.

Необходимые компоненты

  • Подписка Azure — создайте бесплатную учетную запись.
  • Службе Azure OpenAI предоставлен доступ в требуемой подписке Azure В настоящее время доступ к этой службе предоставляется только приложением. Вы можете подать заявку на доступ к Azure OpenAI, выполнив форму по адресу https://aka.ms/oai/access. Если у вас возникли проблемы, создайте соответствующий запрос в этом репозитории, чтобы связаться с нами.
  • После получения подписки Azure создайте ресурс Azure OpenAI.
  • Центр AI Studio с ресурсом Azure OpenAI, добавленным в качестве подключения.

Подготовка носителя

Вам потребуется изображение для выполнения кратких руководств по изображению. Этот образ можно использовать или любой другой доступный образ.

Фотография аварии на автомобиле, которую можно использовать для завершения краткого руководства.

Для запросов видео требуется видео, которое находится в течение трех минут.

Развертывание GPT-4 Turbo с моделью визуального зрения

  1. Войдите в Azure AI Studio и выберите центр, в который вы хотите работать.
  2. В меню навигации слева выберите службы ИИ. Выберите панель Try out GPT-4 Turbo.
  3. На странице gpt-4 выберите "Развернуть". В появившемся окне выберите ресурс Azure OpenAI. Выберите vision-preview версию модели.
  4. Выберите Развернуть.
  5. Затем перейдите на страницу новой модели и выберите "Открыть на детской площадке". На игровой площадке чата в раскрывающемся списке развертывания необходимо выбрать созданное развертывание GPT-4.

В этом сеансе чата вы указываете помощник помочь в понимании входных изображений.

  1. В текстовом поле "Системное сообщение" на вкладке "Системное сообщение" укажите этот запрос для указания помощник. "You're an AI assistant that helps people find information." Вы можете настроить запрос на изображение или сценарий.
  2. Нажмите кнопку "Применить изменения" , чтобы сохранить изменения.
  3. В области сеансов чата нажмите кнопку вложения и отправьте изображение. Выберите изображение.
  4. Добавьте следующий вопрос в поле чата: "Describe this image"и щелкните значок стрелки вправо для отправки.
  5. Значок стрелки вправо заменяется кнопкой "Остановить". Если выбрать его, помощник перестает обрабатывать запрос. В этом кратком руководстве позвольте помощник завершить ответ.
  6. Помощник ответы с описанием изображения.
  7. Задайте следующий вопрос, связанный с анализом изображения. Вы можете ввести, "What should I highlight about this image to my insurance company?".
  8. Вы должны получить соответствующий ответ, аналогичный приведенному здесь:
    When reporting the incident to your insurance company, you should highlight the following key points from the image:  
    
    1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  
    
    2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  
    
    3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  
    
    4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  
    
    5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  
    
    6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  
    
    Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.
    

Просмотр и экспорт кода

В любой момент в сеансе чата можно включить переключатель Show raw JSON в верхней части окна чата, чтобы просмотреть беседу в формате JSON. Вот как выглядит в начале сеанса чата быстрого запуска:

[
	{
		"role": "system",
		"content": [
			"You are an AI assistant that helps people find information."
		]
	},
]

Очистка ресурсов

Чтобы избежать ненужных затрат Azure, следует удалить ресурсы, созданные в этом кратком руководстве, если они больше не нужны. Для управления ресурсами можно использовать портал Azure.

Следующие шаги