Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Gilt nur für:klassisches Foundry Portal. Dieser Artikel ist für das neue Foundry-Portal nicht verfügbar.
Erfahren Sie mehr über das neue Portal.
Hinweis
Links in diesem Artikel können Inhalte in der neuen Microsoft Foundry-Dokumentation anstelle der jetzt angezeigten Foundry-Dokumentation (klassisch) öffnen.
Vision-fähige Chatmodelle sind große multimodale Modelle (LMM), die von OpenAI entwickelt wurden, die Bilder analysieren und Textantworten auf Fragen zu ihnen liefern. Sie enthalten sowohl natürliche Sprachverarbeitung als auch visuelles Verständnis. Dieses Handbuch enthält Details zu ihren Funktionen und Einschränkungen. Informationen dazu, welche Modelle bildeingaben unterstützen, finden Sie auf der Seite "Modelle".
Informationen zum Ausprobieren von visionsfähigen Chatmodellen finden Sie in der Schnellstartanleitung.
Vision-fähige Chats
Die visionsfähigen Modelle beantworten allgemeine Fragen dazu, was in den hochgeladenen Bildern vorhanden ist.
Eingabebeschränkungen
In diesem Abschnitt werden die Einschränkungen von sehfähigen Chatmodellen beschrieben.
Bildunterstützung
- Maximale Eingabebildgröße: Die maximale Größe für Eingabebilder ist auf 20 MB beschränkt.
- Niedrige Auflösungsgenauigkeit: Wenn Bilder mithilfe der Einstellung "niedrige Auflösung" analysiert werden, ermöglicht sie schnellere Antworten und verwendet weniger Eingabetoken für bestimmte Anwendungsfälle. Dies kann sich jedoch auf die Genauigkeit der Objekt- und Texterkennung innerhalb des Bilds auswirken.
- Image-Chateinschränkung: Wenn Sie Bilder im Microsoft Foundry-Portal hochladen oder die API, sind Sie auf 10 Bilder pro Chatanruf beschränkt.
Spezielle Preisinformationen
Wichtig
Der folgende Inhalt ist nur ein Beispiel, und die Preise können in Zukunft geändert werden.
Visuell unterstützte Modelle verursachen Kosten wie andere Azure OpenAI-Chatmodelle. Sie zahlen einen Preis pro Token für die Eingabeaufforderungen und -vervollständigungen, die auf der Seite "Preise" aufgeführt sind. Die Grundgebühren und andere Features sind hier beschrieben:
Basispreise für GPT-4 Turbo mit Vision sind:
- Eingabe: $0,01 pro 1.000 Token
- Ausgabe: $0,03 pro 1.000 Token
Im Abschnitt "Token" der Übersicht finden Sie Informationen dazu, wie Text und Bilder in Token übersetzt werden.
Beispiel für bildpreisberechnung
Für einen typischen Anwendungsfall verwenden Sie ein Bild mit sowohl sichtbaren Objekten als auch Text und einer Eingabeaufforderung mit 100 Token. Wenn der Dienst die Aufforderung verarbeitet, erzeugt er 100 Tokens als Ausgabe. In dem Bild können Sowohl Text als auch Objekte erkannt werden. Der Preis dieser Transaktion wäre:
| Artikel | Einzelheit | Kosten |
|---|---|---|
| Texteingabeaufforderung | 100 Texttoken | $0,001 |
| Beispiel für bildeingabe (siehe Bildtoken) | 170 + 85 Bildtoken | $0,00255 |
| Erweiterte Add-On-Features für OCR | $ 1,50 / 1.000 Transaktionen | $0,0015 |
| Erweiterte Zusatzfunktionen für Objektverankerung | $ 1,50 / 1.000 Transaktionen | $0,0015 |
| Ausgabetoken | 100 Token (angenommen) | $0,003 |
| Gesamt | $0,00955 |
Verwandte Inhalte
- Erste Schritte mit Vision-fähigen Modellen mithilfe der Schnellstartanleitung.
- Eine ausführlichere Betrachtung der APIs finden Sie in der Anleitung.
- Siehe die API-Referenz zu Kompletierungen und Einbettungen