Quickstart: Aan de slag met GPT-4 Turbo met Vision op uw afbeeldingen en video's in Azure AI Studio

Artikel
09/02/2024

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Gebruik dit artikel om aan de slag te gaan met Azure AI Studio om het GPT-4 Turbo with Vision-model te implementeren en te testen.

GPT-4 Turbo met Vision en Azure AI Vision bieden geavanceerde functionaliteit, waaronder:

Optical Character Recognition (OCR): extraheert tekst uit afbeeldingen en combineert deze met de prompt en afbeelding van de gebruiker om de context uit te breiden.
Objectgronding: Vormt een aanvulling op de GPT-4 Turbo met Vision-tekstreactie met objectgronding en geeft een overzicht van opvallende objecten in de invoerafbeeldingen.
Videoprompts: GPT-4 Turbo met Vision kan vragen beantwoorden door de videoframes op te halen die het meest relevant zijn voor de prompt van de gebruiker.

Extra gebruikskosten kunnen van toepassing zijn bij het gebruik van GPT-4 Turbo met Vision en Azure AI Vision-functionaliteit.

Vereisten

Een Azure-abonnement: maak er gratis een.
Zodra u uw Azure-abonnement hebt, maakt u een Azure OpenAI-resource .
Een AI Studio-hub met uw Azure OpenAI-resource toegevoegd als verbinding.

Uw media voorbereiden

U hebt een installatiekopieën nodig om de quickstarts voor de installatiekopieën te voltooien. U kunt deze voorbeeldafbeelding of een andere afbeelding gebruiken die u beschikbaar hebt.

Voor videoprompts hebt u een video nodig die minder dan drie minuten lang is.

Een GPT-4 Turbo met Vision-model implementeren

Meld u aan bij Azure AI Studio en selecteer de hub waarin u wilt werken.
Selecteer AI Services in het linkernavigatiemenu. Selecteer het gpt-4 turbopaneel uitproberen.
Selecteer Implementeren op de pagina gpt-4. Selecteer uw Azure OpenAI-resource in het venster dat wordt weergegeven. Selecteer vision-preview deze optie als de modelversie.
Selecteer Implementeren.
Ga vervolgens naar de pagina van uw nieuwe model en selecteer Openen in speeltuin. In de chatspeeltuin moet de GPT-4-implementatie die u hebt gemaakt, worden geselecteerd in de vervolgkeuzelijst Implementatie .

In deze chatsessie geeft u de assistent instructies om inzicht te krijgen in afbeeldingen die u invoert.

Geef in het tekstvak Systeembericht op het tabblad Systeembericht deze prompt op om de assistent te begeleiden: "You're an AI assistant that helps people find information." U kunt de prompt aanpassen aan uw afbeelding of scenario.
Selecteer Wijzigingen toepassen om uw wijzigingen op te slaan.
Selecteer in het chatsessievenster de knop Bijlage en upload vervolgens de afbeelding. Kies uw afbeelding.
Voeg de volgende vraag toe in het chatveld: "Describe this image"en selecteer vervolgens het pijl-rechtspictogram dat u wilt verzenden.
Het pijl-rechtspictogram wordt vervangen door een stopknop. Als u deze selecteert, stopt de assistent met het verwerken van uw aanvraag. Laat de assistent voor deze quickstart het antwoord voltooien.
De assistent reageert met een beschrijving van de afbeelding.
Stel een vervolgvraag met betrekking tot de analyse van uw afbeelding. U kunt invoeren, "What should I highlight about this image to my insurance company?".

U moet een relevant antwoord ontvangen dat lijkt op wat hier wordt weergegeven:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

In deze chatsessie geeft u de assistent instructies om inzicht te krijgen in afbeeldingen die u invoert. Probeer de mogelijkheden van het augmented vision-model uit.

Schakel in het deelvenster Verbeteringen aan de linkerkant van het chatvenster de optie voor Vision in. Selecteer uw Azure Computer Vision-resource in het venster dat wordt weergegeven.
Geef in het tekstvak Systeembericht op het tabblad Systeembericht deze prompt op om de assistent te begeleiden: "You're an AI assistant that helps people find information." U kunt de prompt aanpassen aan uw afbeelding of scenario. Selecteer Wijzigingen toepassen om uw wijzigingen op te slaan.
Selecteer in het chatsessievenster de knop Bijlage en upload vervolgens de afbeelding. Kies uw afbeelding.
Voeg de volgende vraag toe in het chatveld: "Describe this image"en selecteer vervolgens het pijl-rechtspictogram dat u wilt verzenden.
Het pijl-rechtspictogram wordt vervangen door een stopknop. Als u deze selecteert, stopt de assistent met het verwerken van uw aanvraag. Laat de assistent voor deze quickstart het antwoord voltooien.
De assistent reageert met een beschrijving van de afbeelding. De Azure AI Vision-service wordt gebruikt om meer details te extraheren uit de afbeelding die u hebt geüpload.
Stel een vervolgvraag met betrekking tot de analyse van uw afbeelding. "What should I highlight about this image to my insurance company?" Voer het pijl-rechts in en selecteer het pijl-rechts dat u wilt verzenden.

U moet een relevant antwoord ontvangen dat lijkt op wat hier wordt weergegeven:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

In deze chatsessie geeft u de assistent de instructie om te helpen bij het begrijpen van video's die u invoert. De assistent extraheert verschillende frames uit de video en gebruikt deze om uw vragen te beantwoorden.

Schakel in het deelvenster Verbeteringen aan de linkerkant van het chatvenster de optie voor Vision in. Selecteer uw Azure Computer Vision-resource in het venster dat wordt weergegeven.
Geef in het tekstvak Systeembericht op het tabblad Systeembericht deze prompt op om de assistent te begeleiden: "You're an AI assistant that helps people find information." U kunt de prompt aanpassen aan uw afbeelding of scenario.
Selecteer Wijzigingen toepassen om uw wijzigingen op te slaan.
Selecteer in het chatsessievenster de bijlageknop en upload vervolgens video. Kies uw video.
Voer een tekstprompt in zoals, "Provide details about this video"en selecteer vervolgens het pijl-rechtspictogram dat u wilt verzenden.
Het pijl-rechtspictogram wordt vervangen door een stopknop. Als u deze selecteert, stopt de assistent met het verwerken van uw aanvraag. Laat de assistent voor deze quickstart het antwoord voltooien.
De assistent moet reageren met een beschrijving van de video.
U kunt gerust eventuele vervolgvragen stellen met betrekking tot de analyse van uw video.

Beperkingen

Hieronder ziet u de bekende beperkingen van de verbeteringen in de videoprompt.

Lage resolutie: de frames worden geanalyseerd met behulp van gpt-4 turbo met vision's lage resolutie instelling, die van invloed kan zijn op de nauwkeurigheid van kleine object- en tekstherkenning in de video.
Limieten voor videobestanden: zowel MP4- als MOV-bestandstypen worden ondersteund. In de Azure AI Studio Playground moeten video's minder dan 3 minuten lang zijn. Wanneer u de API gebruikt, is er geen dergelijke beperking.
Promptlimieten: videoprompts bevatten slechts één video en geen afbeeldingen. In Playground kunt u de sessie wissen om te proberen met een andere video of afbeeldingen.
Beperkte frameselectie: Momenteel selecteert het systeem 20 frames uit de hele video, waardoor mogelijk niet alle kritieke momenten of details worden vastgelegd. Frameselectie kan gelijkmatig worden verdeeld over de video of gericht zijn op een specifieke query voor het ophalen van video's, afhankelijk van de prompt.
Taalondersteuning: Op dit moment ondersteunt het systeem voornamelijk Engels voor grounding met transcripties. Transcripties bieden geen nauwkeurige informatie over teksten uit nummers.

Code weergeven en exporteren

Op elk gewenst moment in de chatsessie kunt u de onbewerkte JSON-switch weergeven boven aan het chatvenster inschakelen om het gesprek te zien dat is opgemaakt als JSON. Dit ziet er als volgt uit aan het begin van de quickstart-chatsessie:

[
	{
		"role": "system",
		"content": [
			"You are an AI assistant that helps people find information."
		]
	},
]

Resources opschonen

Als u onnodige Azure-kosten wilt voorkomen, moet u de resources verwijderen die u in deze quickstart hebt gemaakt als ze niet meer nodig zijn. Als u resources wilt beheren, kunt u Azure Portal gebruiken.

Volgende stappen

Een project maken
Meer informatie over Azure AI Vision.
Meer informatie over Azure OpenAI-modellen.

Delen via