Speech-Dienst – Kontingente und Grenzwerte

Dieser Artikel enthält eine Kurzübersicht und eine ausführliche Beschreibung der Kontingente und Grenzwerte für den Speech-Dienst in Azure KI Services. Die Informationen gelten für alle Tarife des Diensts. Außerdem finden Sie hier einige bewährte Methoden zur Vermeidung der Anforderungsdrosselung.

Sehen Sie sich im Zusammenhang mit dem kostenlosen Tarif „Free“ (F0) auch die monatlichen Freibeträge auf der Preisseite an.

Referenz zu Kontingenten und Grenzwerten

Die folgenden Abschnitte bieten eine kurze Anleitung zu den Kontingenten und Grenzwerten, die für den Speech-Dienst gelten.

Informationen zu anpassbaren Kontingenten für Speech-Ressourcen vom Typ „Standard (S0)“ finden Sie unter weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen. Die Kontingente und Grenzwerte für Speech-Ressourcen vom Typ „Free“ (F0) sind nicht anpassbar.

Wichtig

Wenn Sie eine Speech-Ressource vom Free-Tarif (F0) auf den Standard-Tarif (S0) umstellen, kann die Änderung der entsprechenden Kontingente mehrere Stunden dauern.

Kontingente und Grenzwerte für die Spracherkennung pro Ressource

In diesem Abschnitt werden Kontingente und Grenzwerte für die Spracherkennung pro Speech-Ressource beschrieben. Sofern nicht anders angegeben, sind die Grenzwerte nicht anpassbar.

Spracherkennung und Sprachübersetzung in Echtzeit

Sie können die Spracherkennung in Echtzeit mit dem Speech SDK oder der Spracherkennungs-REST-API für kurze Audioinhalte verwenden.

Wichtig

Diese Grenzwerte gelten für die Kombination aus gleichzeitigen Echtzeit-Anforderungen für Spracherkennung und Sprachübersetzung. Wenn Sie beispielsweise 60 gleichzeitige Anforderungen zur Spracherkennung und 40 gleichzeitige Anforderungen zur Sprachübersetzung haben, ist der Grenzwert von 100 gleichzeitigen Anforderungen erreicht.

Kontingent Free (F0) Standard (S0)
Grenzwert für gleichzeitige Anforderungen – Basismodell-Endpunkt 1

Dieser Grenzwert ist nicht anpassbar.
100 (Standardwert)

Die Rate ist für Ressourcen vom Typ „Standard“ (S0) anpassbar. Weitere Informationen finden Sie unter weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen.
Grenzwert für gleichzeitige Anforderungen – benutzerdefinierter Endpunkt 1

Dieser Grenzwert ist nicht anpassbar.
100 (Standardwert)

Die Rate ist für Ressourcen vom Typ „Standard“ (S0) anpassbar. Weitere Informationen finden Sie unter weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen.
Maximale Audiolänge für Echtzeit-Diarisierung. N/V 240 Minuten pro Datei

Batch-Transkription

Kontingent Free (F0) Standard (S0)
Grenzwert der Spracherkennungs-REST-API Für F0 nicht verfügbar 100 Anforderungen pro 10 Sekunden (600 Anforderungen pro Minute)
Maximale Größe der Audioeingabedatei Nicht zutreffend 1 GB
Maximale Anzahl von Blobs pro Container 10000
Maximale Anzahl von Dateien pro Transkriptionsanforderung (bei Verwendung mehrerer Inhalts-URLs als Eingabe). 1000
Maximale Audiolänge für Transkriptionen mit aktivierter Diarisierung. N/V 240 Minuten pro Datei

Modellanpassung

Die Grenzwerte in dieser Tabelle gelten pro Speech-Ressource, wenn Sie ein Custom Speech-Modell erstellen.

Kontingent Free (F0) Standard (S0)
REST-API-Grenzwert 100 Anforderungen pro 10 Sekunden (600 Anforderungen pro Minute) 100 Anforderungen pro 10 Sekunden (600 Anforderungen pro Minute)
Maximale Anzahl von Sprach-Datasets 2 500
Maximale Dateigröße für das Akustikdataset für den Datenimport 2 GB 2 GB
Maximale Dateigröße für das Sprachdataset für den Datenimport 200 MB 1,5 GB
Maximale Dateigröße für das Aussprachedataset für den Datenimport 1 KB 1 MB
Maximale Textgröße bei Verwendung des Parameters text in der API-Anforderung Models_Create. 200 KB 500 KB

Kontingente und Grenzwerte für die Sprachsynthese pro Ressource

In diesem Abschnitt werden Kontingente und Grenzwerte für die Sprachsynthese pro Speech-Ressource beschrieben.

Sprachsynthese in Echtzeit

Sie können Sprachsynthese in Echtzeit mit dem Speech SDK oder der Text-zu-Sprache-REST-API verwenden. Sofern nicht anders angegeben, sind die Grenzwerte nicht anpassbar.

Kontingent Free (F0) Standard (S0)
Maximale Anzahl von Transaktionen pro Zeitraum für vordefinierte neuronale Stimmen und benutzerdefinierte neuronale Stimmen. 20 Transaktionen pro 60 Sekunden

Dieser Grenzwert ist nicht anpassbar.
200 Transaktionen pro Sekunde (TPS) (Standardwert)

Die Rate ist für Ressourcen vom Typ „Standard“ (S0) bis zu 1000 TPS nicht anpassbar. Weitere Informationen finden Sie unter weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen.
Maximal erzeugte Audiolänge pro Anforderung 10 Min. 10 Min.
Maximale Gesamtanzahl von unterschiedlichen <voice>- und <audio>-Tags in SSML 50 50
Maximale SSML-Nachrichtengröße pro Turn für WebSocket 64 KB 64 KB

Batchsynthese

Diese Grenzwerte sind nicht anpassbar. Weitere Informationen zur Wartezeit bei der Batchsynthese finden Sie unter Wartezeit bei der Batchsynthese und bewährte Methoden.

Kontingent Free (F0) Standard (S0)
REST-API-Grenzwert Für F0 nicht verfügbar 50 Anforderungen pro fünf Sekunden
Maximale JSON-Nutzlastgröße zum Erstellen eines Syntheseauftrags N/V 500 Kilobytes
Gleichzeitige aktive Syntheseaufträge N/V 200
Maximale Anzahl von Texteingaben pro Syntheseauftrag N/V 1000
Maximale Gültigkeitsdauer für einen Syntheseauftrag, da er sich im Endzustand befindet N/V Bis zu 31 Tage (mit Eigenschaften angegeben)

Benutzerdefinierte neuronale Stimme – Professional

Die Grenzwerte in dieser Tabelle gelten pro Speech-Ressource, wenn Sie ein Modell mit benutzerdefinierter neuronaler Stimme (Professional) erstellen.

Kontingent Free (F0) Standard (S0)
Maximale Anzahl von Transaktionen pro Sekunde (TPS) Für F0 nicht verfügbar 200 Transaktionen pro Sekunde (TPS) (Standardwert)
Maximale Anzahl von Datasets 500
Maximale Anzahl gleichzeitiger Datasetuploads N/V 5
Maximale Datendateigröße für den Datenimport pro Dataset 2 GB
Upload langer Audiospuren oder Audiospuren ohne Skript N/V Ja
Maximale Anzahl gleichzeitiger Modelltrainings N/V 4
Maximale Anzahl benutzerdefinierter Endpunkte 50

Benutzerdefinierte neuronale Stimme – persönliche Stimme

Die Grenzwerte in dieser Tabelle gelten pro Speech-Ressource, wenn Sie eine persönliche Stimme erstellen.

Kontingent Free (F0) Standard (S0)
REST-API-Grenzwert (ohne Sprachsynthese) Für F0 nicht verfügbar 50 Anforderungen pro 10 Sekunden
Maximale Anzahl von Transaktionen pro Sekunde (TPS) für Sprachsynthese Für F0 nicht verfügbar 200 Transaktionen pro Sekunde (TPS) (Standardwert)

Avatar für Sprachsynthese in Echtzeit

Kontingent Free (F0) Standard (S0)
Neue Verbindungen pro Minute Für F0 nicht verfügbar Zwei neue Verbindungen pro Minute

Tool für die Audioinhaltserstellung

Kontingent Free (F0) Standard (S0)
Dateigröße (Nur-Text in SSML)1 3.000 Zeichen pro Datei 20.000 Zeichen pro Datei
Dateigröße (Lexikondatei)2 30 KB pro Datei 100 KB pro Datei
Abrechenbare Zeichen in SSML 15.000 Zeichen pro Datei 100.000 Zeichen pro Datei
In Audiobibliothek exportieren 1 gleichzeitige Aufgabe

1 Die Begrenzung gilt nur für reinen Text in SSML und schließt Tags nicht ein.

2 Die Zeichen in der Lexikondatei werden nicht in Rechnung gestellt. Nur die Lexikonelemente in SSML werden als abrechenbare Zeichen gezählt. Weitere Informationen finden Sie unter abrechenbare Zeichen.

Kontingente und Grenzwerte für die Sprecher*innenerkennung pro Ressource

Die Sprecher*innenerkennung ist auf 20 Transaktionen pro Sekunde (TPS) beschränkt.

Ausführliche Beschreibung, Kontingentanpassung und bewährte Methoden

Einige der Speech-Dienstkontingente sind anpassbar. Dieser Abschnitt enthält weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen.

Die folgenden Kontingente sind für Ressourcen vom Typ „Standard“ (S0) anpassbar. Die Grenzwerte für „Free“ (F0)-Anforderungen sind nicht anpassbar.

Überprüfen Sie vor dem Anfordern einer Kontingenterhöhung (sofern zutreffend), dass sie wirklich erforderlich ist. Der Speech-Dienst verwendet Technologien für die automatische Skalierung, um die erforderlichen Computeressourcen in den bedarfsorientierten Modus zu versetzen. Gleichzeitig versucht der Speech-Dienst, Ihre Kosten niedrig zu halten, indem er keine übermäßigen Hardwarekapazitäten bereithält.

Schauen wir uns ein Beispiel an. Angenommen, Ihre Anwendung empfängt den Antwortcode 429, der angibt, dass zu viele Anforderungen vorhanden sind. Ihre Anwendung empfängt diese Antwort, sogar obwohl Ihre Workload innerhalb der Grenzwerte liegt, die in der Referenz zu Kontingenten und Grenzwerten definiert sind. Die wahrscheinlichste Erklärung ist, dass der Speech-Dienst gerade entsprechend Ihres Bedarfs hochskaliert wird und die erforderliche Skalierung noch nicht erreicht hat. Daher verfügt der Dienst nicht sofort über genügend Ressourcen, um die Anforderung zu erfüllen. In den meisten Fällen ist dieser gedrosselte Zustand vorübergehend.

Allgemeine bewährte Methoden zur Behandlung der Drosselung während der automatischen Skalierung

Um Probleme im Zusammenhang mit der Drosselung zu minimieren, empfiehlt es sich, die folgenden Methoden zu verwenden:

  • Implementieren Sie eine Wiederholungslogik in der Anwendung.
  • Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach. Nehmen wir beispielsweise an, dass Ihre Anwendung Sprachsynthese verwendet und Ihre aktuelle Workload bei 5 TPS (Transaktionen pro Sekunde) liegt. In der nächsten Sekunde erhöhen Sie die Last auf 20 TPS (also auf das Vierfache). Der Speech-Dienst beginnt sofort mit der Hochskalierung, um die neue Last zu bewältigen, kann aber nicht innerhalb einer Sekunde wie benötigt skaliert werden. Einige Anforderungen erhalten den Antwortcode 429 (zu viele Anforderungen).
  • Testen Sie verschiedene Lasterhöhungsmuster. Weitere Informationen finden Sie im Beispiel zum Workloadmuster.
  • Erstellen Sie weitere Speech-Dienstressourcen in anderen Regionen, und verteilen Sie die Workload auf diese. (Das Erstellen mehrerer Speech-Dienstressourcen in derselben Region wirkt sich nicht auf die Leistung aus, weil alle Ressourcen vom gleichen Back-End-Cluster bereitgestellt werden.)

In den nächsten Abschnitten werden bestimmte Kontingentanpassungsfälle beschrieben.

Spracherkennung: Erhöhen des Grenzwerts für gleichzeitige Echtzeit-Spracherkennung

Standardmäßig ist die Anzahl der gleichzeitigen Anforderungen für Spracherkennung und Sprachübersetzung in Echtzeit auf 100 pro Ressource im Basismodell und 100 pro benutzerdefiniertem Endpunkt im benutzerdefinierten Modell begrenzt. Für den Standard-Tarif können Sie diese Menge erhöhen. Stellen Sie vor dem Übermitteln der Anforderung sicher, dass Sie mit dem weiter oben in diesem Artikel besprochenen Material vertraut sind, z. B. mit den bewährten Methoden zum Abmildern der Drosselung.

Hinweis

Grenzwerte für gleichzeitige Anforderung im Basismodell und im benutzerdefinierten Modell müssen getrennt angepasst werden. Eine Speech-Dienstressource kann vielen benutzerdefinierten Endpunkten zugeordnet werden, die viele benutzerdefinierte Modellimplementierungen hosten. Bei Bedarf müssen die Grenzwertanpassungen pro benutzerdefiniertem Endpunkt separat angefordert werden.

Das Erhöhen des Grenzwerts für gleichzeitige Anforderungen wirkt sich nicht direkt auf Ihre Kosten aus. Der Speech-Dienst verwendet ein Bezahlmodell, das erfordert, dass Sie nur für das bezahlen, was Sie verwenden. Der Grenzwert gibt an, wie hoch der Dienst skaliert werden kann, bevor Ihre Anforderungen gedrosselt werden.

Sie können den vorhandenen Wert des Grenzwertparameters für gleichzeitige Anforderungen weder im Azure-Portal noch in den Befehlszeilentools oder den API-Anforderungen sehen. Erstellen Sie eine Azure-Supportanfrage, um den vorhandenen Wert zu überprüfen.

Hinweis

Für Speech-Container muss der Grenzwert für gleichzeitige Anforderungen nicht erhöht werden, weil Container einzig durch die CPUs der Hardware eingeschränkt sind, auf der sie gehostet werden. Speech-Container haben jedoch ihre eigenen Kapazitätsgrenzen, die berücksichtigt werden sollten. Weitere Informationen finden Sie in den häufig gestellten Fragen zu Speech-Containern.

Halten Sie die erforderlichen Informationen bereit

  • Für das Basismodell:
    • ID der Speech-Ressource
    • Region
  • Für das benutzerdefinierte Modell:
    • Region
    • ID des benutzerdefinierten Endpunkts

Abrufen von Informationen für das Basismodell:

  1. Öffnen Sie das Azure-Portal.
  2. Wählen Sie die Speech-Dienstressource aus, für die Sie den Grenzwert für gleichzeitige Anforderungen erhöhen möchten.
  3. Wählen Sie in der Gruppe Ressourcenverwaltung die Option Eigenschaften aus.
  4. Kopieren und speichern Sie die Werte der folgenden Felder:
    • Ressourcen-ID
    • Standort (Ihre Endpunktregion)

Abrufen von Informationen für das benutzerdefinierte Modell:

  1. Wechseln Sie zum Speech Studio-Portal.
  2. Melden Sie sich, falls erforderlich, an und wechseln Sie zu Custom Speech.
  3. Wählen Sie Ihr Projekt, und wechseln Sie zu Bereitstellung.
  4. Wählen Sie den erforderlichen Endpunkt aus.
  5. Kopieren und speichern Sie die Werte der folgenden Felder:
    • Dienstregion (Ihre Endpunktregion)
    • Endpunkt-ID

Erstellen und Übermitteln einer Supportanfrage

Übermitteln Sie die Supportanfrage, um für Ihre Ressource die Erhöhung des Grenzwerts für gleichzeitige Anforderungen zu initiieren oder um ggf. den aktuellen Grenzwert zu überprüfen. Gehen Sie dazu wie folgt vor:

  1. Stellen Sie sicher, dass Sie über die im vorherigen Abschnitt aufgeführten erforderlichen Informationen verfügen.
  2. Öffnen Sie das Azure-Portal.
  3. Wählen Sie die Speech-Dienstressource aus, für die Sie den Grenzwert für gleichzeitige Anforderungen erhöhen (oder überprüfen) möchten.
  4. Wählen Sie in der Gruppe Support + Problembehandlung die Option Neue Supportanfrage aus. Ein neues Fenster mit automatisch ausgefüllten Informationen zu Ihrem Azure-Abonnement und Ihrer Azure-Ressource wird angezeigt.
  5. Beschreiben Sie unter Zusammenfassung, was Sie möchten (z. B. „Erhöhen des Grenzwerts für gleichzeitige Anforderungen zur Spracherkennung“).
  6. Wählen Sie unter Problemtyp die Option Kontingent- oder Abonnementprobleme aus.
  7. Wählen Sie unter Problemuntertyp eine der beiden Optionen aus:
    • Quota or concurrent requests increase (Erhöhung eines Kontingents oder der gleichzeitigen Anforderungen) für eine Erhöhungsanforderung.
    • Quota or usage validation (Kontingent- oder Nutzungsüberprüfung) zur Überprüfung des vorhandenen Grenzwerts.
  8. Klicken Sie auf Weiter: Lösungen. Fahren Sie mit der Anforderungserstellung fort.
  9. Geben Sie Folgendes auf der Registerkarte Details im Feld Beschreibung ein:
    • Einen Hinweis darauf, dass es bei der Anforderung um ein Kontingent für die Spracherkennung geht.
    • Wählen Sie entweder das Basismodell oder das benutzerdefinierte Modell aus.
    • Die zuvor gesammelten Azure-Ressourceninformationen.
    • Alle anderen erforderlichen Informationen.
  10. Wählen Sie auf der Registerkarte Überprüfen + erstellen die Option Erstellen aus.
  11. Notieren Sie sich die Nummer der Supportanfrage aus den Benachrichtigungen im Azure-Portal. Sie werden in Kürze wegen Ihrer Anforderung kontaktiert.

Beispiel für eine bewährte Methode für Workloadmuster

Im Folgenden finden Sie ein allgemeines Beispiel für einen guten Ansatz. Es dient nur als Vorlage, die Sie bei Bedarf für Ihre eigenen Zwecke anpassen können.

Angenommen, der Grenzwert für gleichzeitige Anforderungen einer Speech-Dienstressource ist auf „300“ festgelegt. Beginnen Sie die Workload mit 20 gleichzeitigen Verbindungen, und erhöhen Sie die Last alle 90 bis 120 Sekunden um 20 gleichzeitige Verbindungen. Kontrollieren Sie die Dienstantworten, und implementieren Sie die Fallbacklogik, durch die im Falle zu vieler Anforderungen (Antwortcode 429) die Last verringert wird. Probieren Sie dann die Erhöhung der Last nach einer Minute erneut, und wenn dies immer noch nicht funktioniert, versuchen Sie es in zwei Minuten noch mal. Verwenden Sie für die Intervalle ein Muster von 1-2-4-4 Minuten.

Es ist generell empfehlenswert, die Workload und die Workloadmuster zu testen, bevor sie in der Produktion verwendet werden.

Sprachsynthese: Erhöhen des Grenzwerts für gleichzeitige Anforderungen

Für den Standard-Tarif können Sie diese Menge erhöhen. Stellen Sie vor dem Übermitteln der Anforderung sicher, dass Sie mit dem weiter oben in diesem Artikel besprochenen Material vertraut sind, z. B. mit den bewährten Methoden zum Abmildern der Drosselung.

Das Erhöhen des Grenzwerts für gleichzeitige Anforderungen wirkt sich nicht direkt auf Ihre Kosten aus. Der Speech-Dienst verwendet ein Bezahlmodell, das erfordert, dass Sie nur für das bezahlen, was Sie verwenden. Der Grenzwert gibt an, wie hoch der Dienst skaliert werden kann, bevor Ihre Anforderungen gedrosselt werden.

Sie können den vorhandenen Wert des Grenzwertparameters für gleichzeitige Anforderungen weder im Azure-Portal noch in den Befehlszeilentools oder den API-Anforderungen sehen. Erstellen Sie eine Azure-Supportanfrage, um den vorhandenen Wert zu überprüfen.

Hinweis

Für Speech-Container muss der Grenzwert für gleichzeitige Anforderungen nicht erhöht werden, weil Container einzig durch die CPUs der Hardware eingeschränkt sind, auf der sie gehostet werden.

Vorbereiten der erforderlichen Informationen

Zum Erstellen einer Anforderung zur Erhöhung müssen Sie bestimmte Informationen angeben.

  • Für die vordefinierte Stimme:
    • ID der Speech-Ressource
    • Region
  • Für die benutzerdefinierte Stimme:
    • Bereitstellungsregion
    • ID des benutzerdefinierten Endpunkts

Abrufen von Informationen für die vordefinierte Stimme:

  1. Öffnen Sie das Azure-Portal.
  2. Wählen Sie die Speech-Dienstressource aus, für die Sie den Grenzwert für gleichzeitige Anforderungen erhöhen möchten.
  3. Wählen Sie in der Gruppe Ressourcenverwaltung die Option Eigenschaften aus.
  4. Kopieren und speichern Sie die Werte der folgenden Felder:
    • Ressourcen-ID
    • Standort (Ihre Endpunktregion)

Abrufen von Informationen für die benutzerdefinierte Stimme:

  1. Wechseln Sie zum Speech Studio-Portal.
  2. Melden Sie sich ggf. an, und wechseln Sie zu Custom Voice.
  3. Wählen Sie Ihr Projekt aus, und wechseln Sie zu Modell bereitstellen.
  4. Wählen Sie den erforderlichen Endpunkt aus.
  5. Kopieren und speichern Sie die Werte der folgenden Felder:
    • Dienstregion (Ihre Endpunktregion)
    • Endpunkt-ID

Erstellen und Übermitteln einer Supportanfrage

Übermitteln Sie die Supportanfrage, um für Ihre Ressource die Erhöhung des Grenzwerts für gleichzeitige Anforderungen zu initiieren oder um ggf. den aktuellen Grenzwert zu überprüfen. Gehen Sie dazu wie folgt vor:

  1. Stellen Sie sicher, dass Sie über die im vorherigen Abschnitt aufgeführten erforderlichen Informationen verfügen.
  2. Öffnen Sie das Azure-Portal.
  3. Wählen Sie die Speech-Dienstressource aus, für die Sie den Grenzwert für gleichzeitige Anforderungen erhöhen (oder überprüfen) möchten.
  4. Wählen Sie in der Gruppe Support + Problembehandlung die Option Neue Supportanfrage aus. Ein neues Fenster mit automatisch ausgefüllten Informationen zu Ihrem Azure-Abonnement und Ihrer Azure-Ressource wird angezeigt.
  5. Beschreiben Sie unter Zusammenfassung, was Sie möchten (z. B. „Erhöhen des Grenzwerts für gleichzeitige Anforderungen zur Sprachsynthese“).
  6. Wählen Sie unter Problemtyp die Option Kontingent- oder Abonnementprobleme aus.
  7. Wählen Sie unter Problemuntertyp eine der beiden Optionen aus:
    • Quota or concurrent requests increase (Erhöhung eines Kontingents oder der gleichzeitigen Anforderungen) für eine Erhöhungsanforderung.
    • Quota or usage validation (Kontingent- oder Nutzungsüberprüfung) zur Überprüfung des vorhandenen Grenzwerts.
  8. Wählen Sie auf der Registerkarte Empfohlene Lösung die Option Weiter aus.
  9. Geben Sie auf der Registerkarte Zusätzliche Details alle erforderlichen Elemente ein. Geben Sie im Feld Details Folgendes ein:
    • Einen Hinweis darauf, dass es bei der Anfrage um ein Kontingent für die Sprachsynthese geht.
    • Wählen Sie entweder die vordefinierte Stimme oder die benutzerdefinierte Stimme aus.
    • Die zuvor gesammelten Azure-Ressourceninformationen.
    • Alle anderen erforderlichen Informationen.
  10. Wählen Sie auf der Registerkarte Überprüfen + erstellen die Option Erstellen aus.
  11. Notieren Sie sich die Nummer der Supportanfrage aus den Benachrichtigungen im Azure-Portal. Sie werden in Kürze wegen Ihrer Anforderung kontaktiert.