GPT-4 Turbo with Vision-Konzepte

GPT-4 Turbo mit Vision ist ein großes multimodales Modell (LMM), das von OpenAI entwickelt wurde, das Bilder analysieren und Textantworten auf Fragen zu ihnen liefern kann. Es umfasst sowohl die Verarbeitung natürlicher Sprache als auch das visuelle Verständnis. Dieser Leitfaden enthält Informationen zu den Funktionen und Einschränkungen von GPT-4 Turbo with Vision.

Um GPT-4 Turbo with Vision auszuprobieren, lesen Sie den Schnellstart.

Chats mit Vision

Der GPT-4 Turbo with Vision-Modell beantwortet allgemeine Fragen zum Inhalt von hochgeladenen Bildern oder Videos.

Erweiterungen

Mithilfe von Erweiterungen können Sie andere Azure KI-Dienste (z. B. Azure KI Vision) integrieren, um der Chat-with-Vision-Erfahrung neue Funktionen hinzuzufügen.

Objektgrounding: Azure KI Vision ergänzt die Textantwort von GPT-4 Turbo with Vision, indem Objekte in den Eingabebildern erkannt und ermittelt werden. Auf diese Weise kann das Chatmodell genauere und detailliertere Antworten auf den Inhalt des Bilds liefern.

Wichtig

Sie benötigen eine Ressource für maschinelles Sehen, um die Vision-Erweiterung verwenden zu können. Diese muss sich im kostenpflichtigen Tarif (S1) und in derselben Azure-Region wie Ihre Ressource für GPT-4 Turbo mit Vision befinden.

Screenshot of an image with object grounding applied. Objects have bounding boxes with labels.

Screenshot of a chat response to an image prompt about an outfit. The response is an itemized list of clothing items seen in the image.

Optische Zeichenerkennung (OCR): Azure KI Vision ergänzt GPT-4 Turbo with Vision, indem qualitativ hochwertige OCR-Ergebnisse als Ergänzungen zum Chatmodell bereitgestellt werden. Dadurch wird es dem Modell ermöglicht, Antworten auf Bilder mit dichtem Text, transformierte Bilder und zahlenlastige Finanzdokumente zu generieren und die Anzahl der Sprachen zu erhöhen, die das Modell im Text erkennen kann.

Wichtig

Sie benötigen eine Ressource für maschinelles Sehen, um die Vision-Erweiterung verwenden zu können. Diese muss sich im kostenpflichtigen Tarif (S1) und in derselben Azure-Region wie Ihre Ressource für GPT-4 Turbo mit Vision befinden.

Photo of several receipts.

Screenshot of the JSON response of an OCR call.

Videoprompt: Mit der Erweiterung für Videoprompts können Sie Videoclips als Eingabe für KI-Chat verwenden, damit das Modell Zusammenfassungen und Antworten zu Videoinhalten generiert. Hierbei wird der Azure KI Vision-Videoabruf verwendet, um eine Stichprobe der Frames aus einem Video zu erfassen und eine Transkription des gesprochenen Texts im Video zu erstellen.

Hinweis

Um die Erweiterung der Videoaufforderung zu verwenden, benötigen Sie zusätzlich zu Ihrer Azure OpenAI-Ressource eine Azure AI Vision-Ressource auf der Kostenpflichtigen Stufe (S1).

Spezielle Preisinformationen

Wichtig

Diese Preisdetails können sich in Zukunft ändern.

Durch GPT-4 Turbo with Vision entstehen genau wie durch andere Azure OpenAI-Chatmodelle Gebühren. Sie zahlen einen tokenbasierten Preis für die Prompts und Vervollständigungen, was auf der Preisseite beschrieben wird. Die Grundgebühren und zusätzlichen Features sind hier aufgeführt:

Basispreise für GPT-4 Turbo mit Vision sind:

  • Eingabe: 0,01 $ pro 1000 Token
  • Ausgabe: 0,03 $ pro 1000 Token

Im Abschnitt Token der Übersicht finden Sie Informationen dazu, wie Text und Bilder in Token übersetzt werden.

Wenn Sie Verbesserungen aktivieren, gilt zusätzliche Nutzung für die Verwendung von GPT-4 Turbo mit Vision mit Azure AI Vision-Funktionalität.

Modell Preis
+ Erweiterte Add-On-Features für OCR 1,50 $ pro 1000 Transaktionen
+ Erweiterte Add-On-Features für Objekterkennung 1,50 $ pro 1000 Transaktionen
+ Erweitertes Add-On-Feature zum „Hinzufügen von Bildbildeinbettungen“ 1,50 $ pro 1000 Transaktionen
+ Erweitertes Add-On-Feature für die Integration von „Videoabrufen“ 1 Erfassung: 0,05 $ pro Videominute
Transaktionen: 0,25 $ pro 1000 Abfragen des Videoempfangsindex

1Die Verarbeitung von Videos umfasst die Verwendung zusätzlicher Token zur Identifizierung von Keyframes für die Analyse. Die Anzahl dieser zusätzlichen Token entspricht ungefähr der Summe der Token in der Texteingabe plus 700 Token.

Beispielbild für eine Preisberechnung

Wichtig

Der folgende Inhalt ist nur ein Beispiel, und die Preise können sich in Zukunft ändern.

Erstellen Sie für einen typischen Anwendungsfall ein Bild mit sichtbaren Objekten und Text und einer Eingabe mit 100 Token-Eingabeaufforderungen. Wenn der Dienst die Aufforderung verarbeitet, generiert er 100 Token der Ausgabe. In dem Bild können sowohl Text als auch Objekte erkannt werden. Der Preis für diese Transaktion wäre:

Element Detail Einstandsbetrag
GPT-4 Turbo with Vision-Eingabetoken 100 Texttoken $0.001
Erweiterte Add-On-Features für OCR 1,50 $/1000 Transaktionen 0,0015 $
Erweiterte Add-On-Features für Objektgrounding 1,50 $/1000 Transaktionen 0,0015 $
256 Ausgabetoken 100 Token (angenommen) 0,003 $
Gesamtkosten 0,007 USD

Beispielvideo für eine Preisberechnung

Wichtig

Der folgende Inhalt ist nur ein Beispiel, und die Preise können sich in Zukunft ändern.

Nehmen Sie für einen typischen Anwendungsfall ein dreiminütiges Video mit einem 100-Token-Prompt an. Das Video verfügt über ein Transkript, das 100 Token lang ist, und wenn der Dienst den Prompt verarbeitet, generiert er 100 Token der Ausgabe. Der Preis für diese Transaktion wäre:

Element Detail Einstandsbetrag
GPT-4 Turbo with Vision-Eingabetoken 100 Texttoken $0.001
Zusätzliche Kosten zum Identifizieren von Frames 100 Eingabetoken + 700 Token + 1 Videoabruftransaktion 0,00825 $
Bildeingaben und Transkripteingabe 20 Bilder (jeweils 85 Token) + 100 Transkripttoken 0,018 $
256 Ausgabetoken 100 Token (angenommen) 0,003 $
Gesamtkosten 0,03025 $

Darüber hinaus gibt es einmalige Indizierungskosten von 0,15 USD, um den Videoabrufindex für dieses dreiminütige Video zu generieren. Dieser Index kann für eine beliebige Anzahl von Videoabrufen und GPT-4 Turbo with Vision-API-Aufrufen wiederverwendet werden.

Begrenzungen

In diesem Abschnitt werden die Einschränkungen von GPT-4 Turbo with Vision beschrieben.

Bildunterstützung

  • Einschränkung der Bilderweiterungen pro Chatsitzung: Erweiterungen können nicht auf mehrere Bilder innerhalb eines einzelnen Chatanrufs angewendet werden.
  • Maximale Eingabebildgröße: Die maximale Größe der Eingabebilder ist auf 20 MB beschränkt.
  • Objekterdung in Eweiterungs-API: Wenn die Erweiterungs-API für die Objekterdung verwendet wird und das Modell Duplikate eines Objekts erkennt, werden ein Begrenzungsrahmen und eine Beschriftung für alle Duplikate anstelle von separaten Begrenzungsrahmen und Beschriftungen für jedes Duplikat erzeugt.
  • Niedrige Auflösungsgenauigkeit: Wenn Bilder mithilfe der Einstellung „Niedrige Auflösung“ analysiert werden, sind schnellere Antworten möglich, und es werden weniger Eingabetoken für bestimmte Anwendungsfälle verwendet. Dies kann sich jedoch auf die Genauigkeit der Objekt- und Texterkennung innerhalb des Bilds auswirken.
  • Einschränkung des Bildchats: Wenn Sie Bilder in Azure OpenAI Studio oder der API hochladen, gibt es eine Beschränkung von 10 Bildern pro Chataufruf.

Videounterstützung

  • Niedrige Auflösung: Videoframes werden mit der GPT-4 Turbo mit Vision-Einstellung „Niedrige Auflösung“ analysiert, was sich auf die Genauigkeit der Erkennung kleiner Objekte und von Text im Video auswirkt.
  • Videodateieinschränkungen: Die Dateitypen „MP4“ und „MOV“ werden unterstützt. In Azure OpenAI Studio müssen Videos weniger als drei Minuten lang sein. Bei Verwendung der API gibt es keine solche Einschränkung.
  • Prompteinschränkungen: Videoprompts enthalten nur ein Video und keine Bilder. In Azure OpenAI Studio können Sie die Sitzung zurücksetzen, um ein anderes Video oder andere Bilder zu testen.
  • Eingeschränkte Frameauswahl: Der Dienst wählt 20 Frames aus dem gesamten Video aus, wodurch möglicherweise nicht alle wichtigen Momente oder Details erfasst werden. Die Frameauswahl kann abhängig vom Prompt ungefähr gleichmäßig über das Video verteilt oder durch eine bestimmte Videoabrufabfrage fokussiert werden.
  • Sprachunterstützung: Der Dienst unterstützt in erster Linie Englisch für die Erdung mit Transkriptionen. Transkriptionen bieten keine genauen Informationen zu Liedtexten.

Nächste Schritte