Schnellstart: Erste Schritte mit GPT-4 Turbo with Vision für Ihre Bilder und Videos in Azure KI Studio

Artikel
09/03/2024

Wichtig

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Lesen Sie diesen Artikel, um zu erfahren, wie Sie Azure KI Studio für das Bereitstellen und Testen des GPT-4 Turbo with Vision-Modells verwenden.

GPT-4 Turbo with Vision und das Azure KI Vision-Angebot bieten unter anderem die folgenden erweiterten Funktionen:

Optische Zeichenerkennung (Optical Character Recognition, OCR): Diese Funktion extrahiert Text aus Bildern und kombiniert ihn mit dem Prompt und dem Bild der Benutzer*innen, um den Kontext zu erweitern.
Objektgrounding: Durch diese Funktion wird die GPT-4 Turbo with Vision-Textantwort mit dem Objektgrounding ergänzt, und markante Objekte in den Eingabebildern werden skizziert.
Videoprompts: GPT-4 Turbo with Vision kann Fragen beantworten, indem die Videoframes abgerufen werden, die für den Prompt der Benutzer*innen am relevantesten sind.

Bei der Verwendung von GPT-4 Turbo mit Vision- und Azure KI Vision-Funktionen können zusätzliche Nutzungsgebühren anfallen.

Voraussetzungen

Azure-Abonnement – kostenloses Abonnement erstellen.
Sobald Sie Ihr Azure-Abonnement haben, erstellen Sie eine Azure OpenAI-Ressource.
Ein KI Studio-Hub mit Ihrer Azure OpenAI-Ressource, die als Verbindung hinzugefügt wurde.

Vorbereiten Ihrer Medien

Sie benötigen ein Bild, um die Schnellstartanleitungen für Bilder abzuschließen. Sie können dieses Beispielbild oder ein beliebiges anderes Bild verwenden, das Ihnen zur Verfügung steht.

Für Videoprompts benötigen Sie ein Video, das weniger als drei Minuten lang ist.

Bereitstellen eines GPT-4 Turbo mit Vision-Modells

Melden Sie sich bei Azure KI Studio an, und wählen Sie den Hub aus, in dem Sie arbeiten möchten.
Wählen Sie im linken Navigationsmenü die Option KI-Dienste aus. Wählen Sie den Bereich GPT-4 Turbo ausprobieren aus.
Wählen Sie auf der Seite „gpt-4“ die Option Bereitstellen aus. Wählen Sie im daraufhin angezeigten Fenster Ihre Azure OpenAI-Ressource aus. Wählen Sie vision-preview als Modellversion aus.
Klicken Sie auf Bereitstellen.
Wechseln Sie als Nächstes zur Seite Ihres neuen Modells, und wählen Sie In Playground öffnen aus. Im Chat-Playground sollte die von Ihnen erstellte GPT-4-Bereitstellung in der Dropdownliste Bereitstellung ausgewählt sein.

In dieser Chatsitzung weisen Sie den Assistenten an, Sie beim Verstehen von Bildern zu unterstützen, die Sie eingeben.

Geben Sie im Textfeld Systemnachricht auf der Registerkarte Systemnachricht diesen Prompt an, um den Assistenten anzuleiten: "You're an AI assistant that helps people find information." Sie können den Prompt für Ihr Bild oder Szenario anpassen.
Wählen Sie zum Speichern der Änderungen Änderungen übernehmen aus.
Wählen Sie im Chatsitzungsbereich die Schaltfläche „Anlage“ und dann Bild hochladen aus. Wählen Sie Ihr Bild aus.
Fügen Sie die folgende Frage im Chatfeld hinzu: "Describe this image". Wählen Sie dann zum Senden das Symbol mit dem nach rechts zeigenden Pfeil aus.
Das Symbol mit dem nach rechts zeigenden Pfeil wird durch eine Stoppschaltfläche ersetzt. Wenn Sie sie auswählen, beendet der Assistent die Verarbeitung Ihrer Anforderung. Lassen Sie den Assistenten die Antwort für diese Schnellstartanleitung abschließen.
Der Assistent antwortet mit einer Beschreibung des Bilds.
Senden Sie eine weitere Anweisung im Zusammenhang mit der Analyse Ihres Bilds. Sie können "What should I highlight about this image to my insurance company?" eingeben.

Sie sollten eine Antwort empfangen, die etwa dem folgenden Beispiel ähnelt:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

In dieser Chatsitzung weisen Sie den Assistenten an, Sie beim Verstehen von Bildern zu unterstützen, die Sie eingeben. Testen Sie die Funktionen des erweiterten Vision-Modells.

Aktivieren Sie im Bereich Verbesserungen auf der linken Seite des Chatfensters die Option für Vision. Wählen Sie im daraufhin angezeigten Fenster Ihre Azure-Ressource für maschinelles Sehen aus.
Geben Sie im Textfeld Systemnachricht auf der Registerkarte Systemnachricht diesen Prompt an, um den Assistenten anzuleiten: "You're an AI assistant that helps people find information." Sie können den Prompt für Ihr Bild oder Szenario anpassen. Wählen Sie zum Speichern der Änderungen Änderungen übernehmen aus.
Wählen Sie im Chatsitzungsbereich die Schaltfläche „Anlage“ und dann Bild hochladen aus. Wählen Sie Ihr Bild aus.
Fügen Sie die folgende Frage im Chatfeld hinzu: "Describe this image". Wählen Sie dann zum Senden das Symbol mit dem nach rechts zeigenden Pfeil aus.
Das Symbol mit dem nach rechts zeigenden Pfeil wird durch eine Stoppschaltfläche ersetzt. Wenn Sie sie auswählen, beendet der Assistent die Verarbeitung Ihrer Anforderung. Lassen Sie den Assistenten die Antwort für diese Schnellstartanleitung abschließen.
Der Assistent antwortet mit einer Beschreibung des Bilds. Er verwendet den Azure KI Vision-Dienst, um mehr Details aus dem hochgeladenen Bild zu extrahieren.
Senden Sie eine weitere Anweisung im Zusammenhang mit der Analyse Ihres Bilds. Geben Sie "What should I highlight about this image to my insurance company?" ein, und wählen Sie dann zum Senden das Symbol mit dem nach rechts zeigenden Pfeil aus.

Sie sollten eine Antwort empfangen, die etwa dem folgenden Beispiel ähnelt:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

In dieser Chatsitzung weisen Sie den Assistenten an, Sie beim Verstehen von bereitgestellten Videos zu unterstützen. Der Assistent extrahiert mehrere Frames aus dem Video und verwendet sie, um Ihre Fragen zu beantworten.

Aktivieren Sie im Bereich Verbesserungen auf der linken Seite des Chatfensters die Option für Vision. Wählen Sie im daraufhin angezeigten Fenster Ihre Azure-Ressource für maschinelles Sehen aus.
Geben Sie im Textfeld Systemnachricht auf der Registerkarte Systemnachricht diesen Prompt an, um den Assistenten anzuleiten: "You're an AI assistant that helps people find information." Sie können den Prompt für Ihr Bild oder Szenario anpassen.
Wählen Sie zum Speichern der Änderungen Änderungen übernehmen aus.
Wählen Sie im Chatsitzungsbereich die Schaltfläche „Anlage“ und dann Video hochladen aus. Wählen Sie Ihr Video aus.
Geben Sie einen Textprompt wie "Provide details about this video" ein, und wählen Sie dann zum Senden das Symbol mit dem nach rechts zeigenden Pfeil aus.
Das Symbol mit dem nach rechts zeigenden Pfeil wird durch eine Stoppschaltfläche ersetzt. Wenn Sie sie auswählen, beendet der Assistent die Verarbeitung Ihrer Anforderung. Lassen Sie den Assistenten die Antwort für diese Schnellstartanleitung abschließen.
Der Assistent sollte mit einer Beschreibung des Videos antworten.
Sie können beliebige Folgefragen im Zusammenhang mit der Analyse Ihres Videos stellen.

Begrenzungen

Nachfolgend sind die bekannten Einschränkungen der Verbesserungen von Videoprompts aufgeführt.

Niedrige Auflösung: Die Frames werden mit der GPT-4 Turbo with Vision-Einstellung „Niedrige Auflösung“ analysiert, was sich auf die Genauigkeit der Erkennung kleiner Objekte und von Text im Video auswirkt.
Videodateieinschränkungen: Die Dateitypen „MP4“ und „MOV“ werden unterstützt. Im Azure KI Studio-Playground müssen Videos kürzer als 3 Minuten sein. Bei Verwendung der API gibt es keine solche Einschränkung.
Prompteinschränkungen: Videoprompts enthalten nur ein Video und keine Bilder. In Playground können Sie die Sitzung löschen, um es mit einem anderen Video oder anderen Bildern zu versuchen.
Eingeschränkte Frameauswahl: Derzeit wählt das System 20 Frames aus dem gesamten Video aus, wodurch möglicherweise nicht alle wichtigen Momente oder Details erfasst werden. Die Frameauswahl kann abhängig vom Prompt gleichmäßig auf das Video verteilt oder durch eine bestimmte Videoabrufabfrage fokussiert werden.
Sprachunterstützung: Derzeit unterstützt das System in erster Linie Englisch für das Grounding mit Transkriptionen. Transkriptionen bieten keine genauen Informationen zu den Texten von Songs.

Anzeigen und Exportieren von Code

Zu jedem Zeitpunkt in der Chatsitzung können Sie den Schalter JSON-Rohdaten anzeigen oben im Chatfenster aktivieren, um die als JSON formatierte Unterhaltung anzuzeigen. Hier sehen Sie den Status zu Beginn der Schnellstart-Chatsitzung:

[
	{
		"role": "system",
		"content": [
			"You are an AI assistant that helps people find information."
		]
	},
]

Bereinigen von Ressourcen

Um unnötige Azure-Kosten zu vermeiden, sollten Sie die in diesem Schnellstart erstellten Ressourcen löschen, wenn sie nicht mehr benötigt werden. Zum Verwalten von Ressourcen können Sie das Azure-Portal verwenden.

Nächste Schritte

Erstellen eines Projekts
Weitere Informationen zu Azure KI Vision
Weitere Informationen zu Azure OpenAI-Modellen

Teilen über