Onboarding bereitgestellter Durchsatzeinheiten

Artikel
10/18/2024

Dieser Artikel führt Sie durch den Prozess des Onboardings für Bereitgestellte Durchsatzeinheiten (PTUs). Sobald Sie das anfängliche Onboarding abgeschlossen haben, empfehlen wir Ihnen den Leitfaden zu den ersten Schritten mit PTUs.

Verwenden bereitgestellter Durchsatzeinheiten (Provisioned Throughput Units, PTU)

Sie sollten die Umstellung von nutzungsbasierter Bezahlung auf bereitgestellten Durchsatz erwägen, wenn Ihre Durchsatzanforderungen gut definiert und vorhersagbar sind. In der Regel tritt dies auf, wenn die Anwendung für die Produktion bereit ist oder bereits in der Produktion bereitgestellt wurde und es ein Verständnis für den erwarteten Datenverkehr gibt. Auf diese Weise können Benutzer die erforderliche Kapazität genau vorhersagen und eine unerwartete Abrechnung vermeiden.

Typische PTU-Szenarien

Eine Anwendung, die für die Produktion bereit ist oder sich in der Produktion befindet
Eine Anwendung, die vorhersehbare Erwartungen an Kapazität/Verbrauch hat.
Eine Anwendung hat Echtzeit/Wartezeit-sensitive Anforderungen.

Hinweis

Bei Funktionsaufrufen und Agent-Anwendungsfällen kann die Tokenverwendung variabel sein. Sie müssen den erwartete TPM (Token pro Minute)-Verbrauch im Detail verstehen, bevor Sie Workloads zu PTU migrieren.

Dimensionierung und Schätzung: bereitgestellt und global bereitgestellt

Die Bestimmung der richtigen Menge des bereitgestellten Durchsatzes oder der bereitgestellten Durchsatzeinheiten, die Sie für Ihre Workload benötigen, ist ein wesentlicher Schritt zur Optimierung der Leistung und der Kosten. In diesem Abschnitt wird beschrieben, wie Sie das Azure OpenAI-Kapazitätsplanungstool verwenden. Das Tool gibt eine Schätzung der erforderlichen PTUs an, um die Anforderungen Ihrer Workload zu erfüllen.

Schätzung des bereitgestellten Durchsatzes und der Kosten

Um eine schnelle Schätzung Ihrer Workload zu erhalten, öffnen Sie den Kapazitätsplaner in Azure OpenAI Studio. Der Kapazitätsplaner befindet sich unter freigegebenen Ressourcen>Kontingent>Azure OpenAI Bereitgestellt.

Die Option Bereitgestellt und der Kapazitätsplaner sind nur in bestimmten Regionen im Kontingentbereich verfügbar; wenn diese Option nicht angezeigt wird, legen Sie die Kontingentregion auf Schweden, Mitte fest, um diese Option verfügbar zu machen. Geben Sie die folgenden Parameter basierend auf Ihrer Workload ein.

Eingabe	Beschreibung
Modell	OpenAI-Modell, das Sie verwenden möchten. Beispiel: GPT-4
Version	Version des Modells, das Sie verwenden möchten, z. B. 0614
Spitzenaufrufe pro Minute	Die Anzahl der Aufrufe pro Minute, die voraussichtlich an das Modell gesendet werden
Token im Promptaufruf	Die Anzahl der Token im Prompt für jeden Aufruf des Modells. Aufrufe mit größeren Prompts verbrauchen mehr PTU-Bereitstellung. Derzeit geht dieser Rechner von einem einzigen Promptwert aus, sodass er für Workloads mit großen Schwankungen geeignet ist. Wir empfehlen, einen Benchmarking-Test Ihrer Bereitstellung mit Ihrem Datenverkehr durchzuführen, um die genaueste Schätzung der für Ihre Bereitstellung benötigten PTU zu ermitteln.
Token in der Modellantwort	Die Anzahl der Token, die von jedem Aufruf des Modells generiert wurden. Anrufe mit größeren Generationsgrößen werden mehr PTU-Bereitstellung nutzen. Derzeit geht dieser Rechner von einem einzigen Promptwert aus, sodass er für Workloads mit großen Schwankungen geeignet ist. Wir empfehlen, einen Benchmarking-Test Ihrer Bereitstellung mit Ihrem Datenverkehr durchzuführen, um die genaueste Schätzung der für Ihre Bereitstellung benötigten PTU zu ermitteln.

Nachdem Sie die erforderlichen Details ausgefüllt haben, wählen Sie in der Ausgabespalte die Schaltfläche Berechnen aus.

Die Werte in der Ausgabespalte sind der geschätzte Wert der PTU-Einheiten, die für die bereitgestellten Workloadeingaben erforderlich sind. Der erste Ausgabewert stellt die geschätzten PTU-Einheiten dar, die für die Workload erforderlich sind, aufgerundet auf das nächste PTU-Skalierungsinkrement. Der zweite Ausgabewert stellt die unformatierten geschätzten PTU-Einheiten dar, die für die Workload erforderlich sind. Die Gesamtzahl der Token wird nach der folgenden Gleichung berechnet: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Hinweis

Der Kapazitätsrechner liefert eine Schätzung basierend auf einfachen Eingabekriterien. Die genaueste Möglichkeit, Ihre Kapazität zu ermitteln, besteht darin, für eine Bereitstellung mit einer repräsentativen Workload für Ihren Anwendungsfall einen Benchmark zu erstellen.

Grundlegendes zum Kaufmodell für bereitgestellten Durchsatz

Azure OpenAI Provisioned und Global Provisioned werden nach Bedarf auf stündlicher Basis auf der Grundlage der Anzahl der bereitgestellten PTUs erworben, wobei über den Erwerb von Azure-Reservierungen erhebliche Laufzeitrabatte möglich sind.

Das stündliche Modell eignet sich für kurzfristige Bereitstellungsanforderungen, z. B. das Validieren neuer Modelle oder das Erwerben von Kapazitäten für einen Hackathon.  Die Rabatte, welche die Azure-Reservierung für Azure OpenAI Provisioned und Global Provisioned bietet, sind jedoch beträchtlich, und die meisten Kunden mit konsistentem langfristigen Verbrauch werden ein reserviertes Modell als ein besseres Nutzenversprechen empfinden.

Hinweis

Azure OpenAI Provisioned-Kunden, die vor dem Self-Service-Update vom August integriert wurden, verwenden ein Kaufmodell mit dem Namen „Verpflichtung“. Diese Kunden können dieses ältere Kaufmodell weiterhin zusammen mit dem Kaufmodell „Stündlich/Reservierung“ verwenden. Das Modell „Verpflichtung“ steht für neue Kunden nicht zur Verfügung. Ausführliche Informationen zum Kaufmodell „Verpflichtung“ und Optionen für Koexistenz und Migration finden Sie im August-Update für Azure OpenAI Provisioned.

Stündlicher Verbrauch

Bereitgestellte und global bereitgestellte Bereitstellungen werden nach Stunde ($/PTU/hr) für die Anzahl der bereitgestellten PTUs abgerechnet.  Eine PTU-Bereitstellung von 300 PTU wird beispielsweise mit dem Stundensatz mal 300 in Rechnung gestellt.  Alle Azure OpenAI-Preise sind im Azure-Preisrechner verfügbar.

Wenn eine Bereitstellung für einen Teil einer Stunde existiert, erhält sie eine anteilige Gebühr basierend auf der Anzahl der Minuten, die sie während der Stunde bereitgestellt war.  Beispiel: Für eine Bereitstellung, die für 15 Minuten während einer Stunde existiert, wird 1/4 des Stundenansatzes in Rechnung gestellt. 

Wenn die Bereitstellungsgröße geändert wird, werden sich die Kosten der Bereitstellung an die neue Anzahl von PTUs anpassen.

Das Bezahlen für bereitgestellte und global bereitgestellte Bereitstellungen auf Stundenbasis eignet sich ideal für kurzfristige Bereitstellungsszenarien.  Beispiel: Qualitäts- und Leistungsbenchmarking neuer Modelle oder vorübergehende Erhöhung der PTU-Kapazität, um ein Event wie einen Hackathon abzudecken. 

Kunden, die einen langfristige Verbrauch bereitgestellter und global bereitgestellter Bereitstellungen benötigen, können jedoch erheblich weniger pro Monat bezahlen, indem sie einen Laufzeitrabatt über eine Azure-Reservierung erwerben, wie im nächsten Abschnitt beschrieben.

Hinweis

Es wird nicht empfohlen, Produktionsbereitstellungen entsprechend eingehendem Datenverkehr zu skalieren und sie ausschließlich auf Stundenbasis zu bezahlen. Hierfür gibt es zwei Gründe:

Die durch den Kauf einer Azure-Reservierung für Azure OpenAI Provisioned erreichten Kosteneinsparungen sind erheblich, und es wird in vielen Fällen kostengünstiger sein, eine für das volle Produktionsvolumen ausgelegte Bereitstellung aufrechtzuerhalten, die über eine Reservierung bezahlt wird, als die Bereitstellung mit dem eingehenden Datenverkehr zu skalieren.
Nicht verwendetes bereitgestelltes Kontingent (PTUs) zu haben, gibt keine Garantie, dass die Kapazität verfügbar sein wird, um bei Bedarf die Erhöhung der Bereitstellungsgröße zu unterstützen. Das Kontingent begrenzt die maximale Anzahl von PTUs, die bereitgestellt werden können, ist aber keine Kapazitätsgarantie. Die bereitgestellte Kapazität für jede Region und jedes Modell ändert sich dynamisch im Laufe des Tages und ist möglicherweise nicht verfügbar, wenn sie benötigt wird. Daher wird empfohlen, eine dauerhafte Bereitstellung aufrechtzuerhalten, um Ihre Datenverkehrsanforderungen abzudecken (bezahlt über eine Reservierung).
Die Gebühren für Bereitstellungen einer gelöschten Ressource werden fortgesetzt, bis die Ressource endgültig gelöscht wird. Um dies zu verhindern, löschen Sie die Bereitstellung einer Ressource vor der Ressource. Weitere Informationen finden Sie unter Wiederherstellen oder Bereinigen gelöschter Azure KI Services-Ressourcen.

Azure Reservations for Azure OpenAI Provisioned und Global Provisioned

Rabatte über den stündlichen Verbrauchspreis hinaus erhalten Sie durch den Kauf einer Azure-Reservierung für Azure OpenAI Provisioned und Global Provisioned. Eine Azure-Reservierung ist ein Mechanismus zur Laufzeitermäßigung, der von vielen Azure-Produkten genutzt wird. Beispiel: Compute und Cosmos DB. Bei Azure OpenAI Provisioned und Global Provisioned bietet die Reservierung einen Rabatt für die Zusage einer Zahlung für eine feste Anzahl von PTUs für einen Zeitraum von einem Monat oder einem Jahr. 

Azure-Reservierungen werden über das Azure-Portal erworben, nicht über den Azure OpenAI Studio-Link zum Azure-Reservierungsportal.
Reservierungen werden regional erworben und können flexibel gestaltet werden, um den Verbrauch durch eine Gruppe von Bereitstellungen abzudecken. Reservierungsbereiche umfassen:
- Einzelne Ressourcengruppen oder Abonnements
- Eine Gruppe von Abonnements in einer Verwaltungsgruppe
- Alle Abonnements in einem Abrechnungskonto
Neue Reservierungen können gekauft werden, um den gleichen Bereich wie bestehende Reservierungen abzudecken, um die Rabattierung neuer bereitgestellter Bereitstellungen zu ermöglichen. Der Bereich vorhandener Reservierungen kann auch jederzeit ohne Strafe aktualisiert werden, um beispielsweise ein neues Abonnement abzudecken.
Reservierungen können nach dem Kauf storniert werden, aber Gutschriften sind begrenzt.
Wenn die Größe der bereitgestellten Bereitstellungen im Bereich einer Reservierung den Betrag der Reservierung überschreitet, wird die Überlastung zum Stundensatz belastet. Beispiel: Wenn Bereitstellungen in Höhe von 250 PTUs im Bereich einer PTU-Reservierung von 200 PTUs vorhanden sind, werden 50 PTUs auf Stundenbasis belastet, bis die Bereitstellungsgrößen auf 200 PTUs reduziert werden oder eine neue Reservierung erstellt wird, um die verbleibenden 50 PTUs abzudecken.
Reservierungen garantieren einen rabattierten Preis für die ausgewählte Laufzeit.  Sie reservieren keine Kapazität für den Dienst und garantieren nicht, dass sie verfügbar sein werden, wenn eine Bereitstellung erstellt wird. Es wird dringend empfohlen, dass Kunden Bereitstellungen vor dem Kauf einer Reservierung erstellen, um den Überkauf einer Reservierung zu verhindern.

Wichtig

Die Kapazitätsverfügbarkeit für Modellbereitstellungen ist dynamisch und ändert sich häufig über Regionen und Modelle hinweg. Um zu verhindern, dass Sie eine Reservierung für mehr PTUs erwerben, als Sie verwenden können, erstellen Sie zuerst Bereitstellungen, und kaufen Sie dann die Azure-Reservierung für die Abdeckung der bereitgestellten PTUs. Durch diese bewährte Methode wird sichergestellt, dass Sie den Reservierungsrabatt vollständig nutzen, und verhindert, dass Sie eine Laufzeitverpflichtung erwerben, die Sie nicht verwenden können.
Die Azure-Rolle und die Anforderungen an der Mandantenrichtlinie zum Kauf einer Reservierung unterscheiden sich von denen, die zum Erstellen einer Bereitstellung oder einer Azure OpenAI-Ressource erforderlich sind. Überprüfen Sie die Autorisierung zum Kauf von Reservierungen, bevor es erforderlich wird. Weitere Details finden Sie in der Dokumentation über Azure OpenAI Provisioned-Reservierungen.

Wichtig: Dimensionierung von Azure OpenAI Provisioned- und Global Provisioned-Reservierungen

Die PTU-Anzahl in Reservierungskäufen sind unabhängig von PTUs, die in Kontingenten zugewiesen oder in Bereitstellungen verwendet werden. Es ist möglich, eine Reservierung für mehr PTUs zu erwerben, als Sie im Kontingent haben oder für die gewünschte Region, das Modell oder die gewünschte Version bereitstellen können. Gutschriften für den Überkauf einer Reservierung sind begrenzt, und Kunden müssen Schritte einleiten, um sicherzustellen, dass sie ihre Reservierungsgrößen im Einklang mit ihren bereitgestellten PTUs aufrechterhalten.

Die bewährte Methode besteht darin, eine Reservierung immer nach dem Erstellen der Bereitstellungen zu erwerben. Dies verhindert den Kauf einer Reservierung und das anschließende feststellen, dass die erforderliche Kapazität für die gewünschte Region oder das gewünschte Modell nicht verfügbar ist.

Um Kunden beim Kauf der richtigen Reservierungsmengen zu unterstützen. Die Gesamtzahl der PTUs in einem Abonnement und einer Region, die von einer Reservierung abgedeckt werden kann, werden auf der Seite „Kontingente“ in Azure OpenAI Studio aufgeführt. Weitere Informationen finden Sie in der Nachricht „Verfügbare PTUs für Reservierungen.“

Verwalten von Azure-Reservierungen

Nachdem eine Reservierung erstellt wurde, empfiehlt es sich, sie zu überwachen, um sicherzustellen, dass sie den erwarteten Verbrauch erhält. Dies kann über das Azure-Reservierungsportal oder Azure Monitor erfolgen. Details zu diesen und anderen Themen finden Sie hier:

Teilen über

Onboarding bereitgestellter Durchsatzeinheiten

Verwenden bereitgestellter Durchsatzeinheiten (Provisioned Throughput Units, PTU)

Typische PTU-Szenarien

Dimensionierung und Schätzung: bereitgestellt und global bereitgestellt

Schätzung des bereitgestellten Durchsatzes und der Kosten

Grundlegendes zum Kaufmodell für bereitgestellten Durchsatz

Stündlicher Verbrauch

Azure Reservations for Azure OpenAI Provisioned und Global Provisioned

Wichtig: Dimensionierung von Azure OpenAI Provisioned- und Global Provisioned-Reservierungen

Nächste Schritte

Feedback

Zusätzliche Ressourcen