Ereignisse
Erstellen von KI-Apps und Agents
17. März, 21 Uhr - 21. März, 10 Uhr
Nehmen Sie an der Meetup-Serie teil, um skalierbare KI-Lösungen basierend auf realen Anwendungsfällen mit Mitentwicklern und Experten zu erstellen.
Jetzt registrierenDieser Browser wird nicht mehr unterstützt.
Führen Sie ein Upgrade auf Microsoft Edge durch, um die neuesten Features, Sicherheitsupdates und den technischen Support zu nutzen.
Dieser Artikel enthält eine Kurzübersicht und eine ausführliche Beschreibung der Kontingente und Grenzwerte für den Speech-Dienst in Azure KI Services. Die Informationen gelten für alle Tarife des Diensts. Außerdem finden Sie hier einige bewährte Methoden zur Vermeidung der Anforderungsdrosselung.
Sehen Sie sich im Zusammenhang mit dem kostenlosen Tarif „Free“ (F0) auch die monatlichen Freibeträge auf der Preisseite an.
Die folgenden Abschnitte bieten eine kurze Anleitung zu den Kontingenten und Grenzwerten, die für den Speech-Dienst gelten.
Informationen zu anpassbaren Kontingenten für Speech-Ressourcen vom Typ „Standard (S0)“ finden Sie unter weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen. Die Kontingente und Grenzwerte für Speech-Ressourcen vom Typ „Free“ (F0) sind nicht anpassbar.
Wichtig
Wenn Sie eine KI Services-Ressource für Sprache vom kostenlosen Tarif (F0) auf den Standardtarif (S0) umstellen, kann die Änderung der entsprechenden Kontingente mehrere Stunden dauern.
In diesem Abschnitt werden Kontingente und Grenzwerte für die Spracherkennung pro Speech-Ressource beschrieben. Sofern nicht anders angegeben, sind die Grenzwerte nicht anpassbar.
Sie können die Spracherkennung in Echtzeit mit dem Speech SDK oder der Spracherkennungs-REST-API für kurze Audioinhalte verwenden.
Wichtig
Diese Grenzwerte gelten für die Kombination aus gleichzeitigen Echtzeit-Anforderungen für Spracherkennung und Sprachübersetzung. Wenn Sie beispielsweise 60 gleichzeitige Anforderungen zur Spracherkennung und 40 gleichzeitige Anforderungen zur Sprachübersetzung haben, ist der Grenzwert von 100 gleichzeitigen Anforderungen erreicht.
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
Grenzwert für gleichzeitige Anforderungen – Basismodell-Endpunkt | 1 Dieser Grenzwert ist nicht anpassbar. |
100 (Standardwert) Die Rate ist für Ressourcen vom Typ „Standard“ (S0) anpassbar. Weitere Informationen finden Sie unter weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen. |
Grenzwert für gleichzeitige Anforderungen – benutzerdefinierter Endpunkt | 1 Dieser Grenzwert ist nicht anpassbar. |
100 (Standardwert) Die Rate ist für Ressourcen vom Typ „Standard“ (S0) anpassbar. Weitere Informationen finden Sie unter weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen. |
Maximale Audiolänge für Echtzeit-Diarisierung. | N/V | 240 Minuten pro Datei |
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
Maximale Größe der Audioeingabedatei | N/V | 200 MB |
Maximale Audiolänge | N/V | 120 Minuten pro Datei |
Maximale Anforderungen pro Minute | N/V | 600 |
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
Grenzwert der Spracherkennungs-REST-API | Für F0 nicht verfügbar | 100 Anforderungen pro 10 Sekunden (600 Anforderungen pro Minute) |
Maximale Größe der Audioeingabedatei | Nicht zutreffend | 1 GB |
Maximale Anzahl von Blobs pro Container | – | 10000 |
Maximale Anzahl von Dateien pro Transkriptionsanforderung (bei Verwendung mehrerer Inhalts-URLs als Eingabe). | – | 1000 |
Maximale Audiolänge für Transkriptionen mit aktivierter Diarisierung. | N/V | 240 Minuten pro Datei |
Die Grenzwerte in dieser Tabelle gelten pro Speech-Ressource, wenn Sie ein Custom Speech-Modell erstellen.
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
REST-API-Grenzwert | 100 Anforderungen pro 10 Sekunden (600 Anforderungen pro Minute) | 100 Anforderungen pro 10 Sekunden (600 Anforderungen pro Minute) |
Maximale Anzahl von Bereitstellungen benutzerdefinierter Modelle pro Spracherkennungsressource | 1 | 50 |
Maximale Anzahl von Sprach-Datasets | 2 | 500 |
Maximale Dateigröße für das Akustikdataset für den Datenimport | 2 GB | 2 GB |
Maximale Dateigröße für das Sprachdataset für den Datenimport | 200 MB | 1,5 GB |
Maximale Dateigröße für das Aussprachedataset für den Datenimport | 1 KB | 1 MB |
Maximale Textgröße bei Verwendung des Parameters text in der API-Anforderung Models_Create. |
200 KB | 500 KB |
In diesem Abschnitt werden Kontingente und Grenzwerte für die Sprachsynthese pro Speech-Ressource beschrieben.
Sie können Sprachsynthese in Echtzeit mit dem Speech SDK oder der Text-zu-Sprache-REST-API verwenden. Sofern nicht anders angegeben, sind die Grenzwerte nicht anpassbar.
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
Maximale Anzahl von Transaktionen pro Zeitraum für vordefinierte neuronale Stimmen und benutzerdefinierte neuronale Stimmen. | 20 Transaktionen pro 60 Sekunden Dieser Grenzwert ist nicht anpassbar. |
200 Transaktionen pro Sekunde (TPS) (Standardwert) Die Rate ist für Ressourcen vom Typ „Standard“ (S0) bis zu 1000 TPS nicht anpassbar. Weitere Informationen finden Sie unter weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen. |
Maximal erzeugte Audiolänge pro Anforderung | 10 Min. | 10 Min. |
Maximale Gesamtanzahl von unterschiedlichen <voice> - und <audio> -Tags in SSML |
50 | 50 |
Maximale SSML-Nachrichtengröße pro Turn für WebSocket | 64 KB | 64 KB |
Diese Grenzwerte sind nicht anpassbar. Weitere Informationen zur Wartezeit bei der Batchsynthese finden Sie unter Wartezeit bei der Batchsynthese und bewährte Methoden.
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
REST-API-Grenzwert | Für F0 nicht verfügbar | 100 Anforderungen pro zehn Sekunden |
Maximale JSON-Nutzlastgröße zum Erstellen eines Syntheseauftrags | N/V | 2 Megabyte |
Gleichzeitige aktive Syntheseaufträge | N/V | Keine Begrenzung |
Maximale Anzahl von Texteingaben pro Syntheseauftrag | N/V | 10000 |
Maximale Gültigkeitsdauer für einen Syntheseauftrag, da er sich im Endzustand befindet | N/V | Bis zu 31 Tage (mit Eigenschaften angegeben) |
Die Grenzwerte in dieser Tabelle gelten pro Speech-Ressource, wenn Sie ein Modell mit benutzerdefinierter neuronaler Stimme (Professional) erstellen.
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
Maximale Anzahl von Transaktionen pro Sekunde (TPS) | Für F0 nicht verfügbar | 200 Transaktionen pro Sekunde (TPS) (Standardwert) |
Maximale Anzahl von Datasets | – | 500 |
Maximale Anzahl gleichzeitiger Datasetuploads | N/V | 5 |
Maximale Datendateigröße für den Datenimport pro Dataset | – | 2 GB |
Upload langer Audiospuren oder Audiospuren ohne Skript | N/V | Ja |
Maximale Anzahl gleichzeitiger Modelltrainings | N/V | 4 |
Maximale Anzahl benutzerdefinierter Endpunkte | – | 50 |
Die Grenzwerte in dieser Tabelle gelten pro Speech-Ressource, wenn Sie eine persönliche Stimme erstellen.
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
REST-API-Grenzwert (ohne Sprachsynthese) | Für F0 nicht verfügbar | 50 Anforderungen pro 10 Sekunden |
Maximale Anzahl von Transaktionen pro Sekunde (TPS) für Sprachsynthese | Für F0 nicht verfügbar | 200 Transaktionen pro Sekunde (TPS) (Standardwert) |
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
REST-API-Grenzwert | Für F0 nicht verfügbar | 2 Anforderungen pro (1) Minute |
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
Neue Verbindungen pro Minute | Für F0 nicht verfügbar | 2 neue Verbindungen pro Minute |
Maximale Verbindungsdauer mit Sprechen | Für F0 nicht verfügbar | 30 Minuten1 |
Maximale Verbindungsdauer mit Leerlaufzustand | Für F0 nicht verfügbar | 5 Minuten |
1 Um einen kontinuierlichen Betrieb des Echtzeit-Avatars für mehr als 30 Minuten sicherzustellen, können Sie die automatische Verbindungswiederherstellung aktivieren. Informationen zum Einrichten der automatischen Verbindungswiederherstellung finden Sie in diesem Beispielcode (Suche nach „Automatische Verbindungswiederherstellung“).
Kontingent | Free (F0) | Standard (S0) |
---|---|---|
Dateigröße (Nur-Text in SSML)1 | 3.000 Zeichen pro Datei | 20.000 Zeichen pro Datei |
Dateigröße (Lexikondatei)2 | 30 KB pro Datei | 100 KB pro Datei |
Abrechenbare Zeichen in SSML | 15.000 Zeichen pro Datei | 100.000 Zeichen pro Datei |
In Audiobibliothek exportieren | 1 gleichzeitige Aufgabe | – |
1 Die Begrenzung gilt nur für reinen Text in SSML und schließt Tags nicht ein.
2 Die Zeichen in der Lexikondatei werden nicht in Rechnung gestellt. Nur die Lexikonelemente in SSML werden als abrechenbare Zeichen gezählt. Weitere Informationen finden Sie unter abrechenbare Zeichen.
Die Sprecher*innenerkennung ist auf 20 Transaktionen pro Sekunde (TPS) beschränkt.
Einige der Speech-Dienstkontingente sind anpassbar. Dieser Abschnitt enthält weitere Erläuterungen, bewährte Methoden und Anpassungsanweisungen.
Die folgenden Kontingente sind für Ressourcen vom Typ „Standard“ (S0) anpassbar. Die Grenzwerte für „Free“ (F0)-Anforderungen sind nicht anpassbar.
Bevor Sie eine Kontingenterhöhung anfordern – sofern zutreffend –, überprüfen Sie Ihre aktuellen TPS (Transaktionen pro Sekunde), und stellen Sie sicher, dass es erforderlich ist, das Kontingent zu erhöhen. Der Speech-Dienst verwendet Technologien für die automatische Skalierung, um die erforderlichen Computeressourcen in den bedarfsorientierten Modus zu versetzen. Gleichzeitig versucht der Speech-Dienst, Ihre Kosten niedrig zu halten, indem er keine übermäßigen Hardwarekapazitäten bereithält.
Schauen wir uns ein Beispiel an. Angenommen, Ihre Anwendung empfängt den Antwortcode 429, der angibt, dass zu viele Anforderungen vorhanden sind. Ihre Anwendung empfängt diese Antwort, sogar obwohl Ihre Workload innerhalb der Grenzwerte liegt, die in der Referenz zu Kontingenten und Grenzwerten definiert sind. Die wahrscheinlichste Erklärung ist, dass der Speech-Dienst gerade entsprechend Ihres Bedarfs hochskaliert wird und die erforderliche Skalierung noch nicht erreicht hat. Daher verfügt der Dienst nicht sofort über genügend Ressourcen, um die Anforderung zu erfüllen. In solchen Fällen hilft das Erhöhen des Kontingents nicht. In den meisten Fällen wird der Speech-Dienst bald hochskaliert, und das Problem, das den Antwortcode 429 verursacht, wird behoben.
Um Probleme im Zusammenhang mit der Drosselung zu minimieren, empfiehlt es sich, die folgenden Methoden zu verwenden:
In den nächsten Abschnitten werden bestimmte Kontingentanpassungsfälle beschrieben.
Standardmäßig ist die Anzahl der gleichzeitigen Anforderungen für Spracherkennung und Sprachübersetzung in Echtzeit auf 100 pro Ressource im Basismodell und 100 pro benutzerdefiniertem Endpunkt im benutzerdefinierten Modell begrenzt. Für den Standard-Tarif können Sie diese Menge erhöhen. Stellen Sie vor dem Übermitteln der Anforderung sicher, dass Sie mit dem weiter oben in diesem Artikel besprochenen Material vertraut sind, z. B. mit den bewährten Methoden zum Abmildern der Drosselung.
Hinweis
Grenzwerte für gleichzeitige Anforderung im Basismodell und im benutzerdefinierten Modell müssen getrennt angepasst werden. Eine Speech-Dienstressource kann vielen benutzerdefinierten Endpunkten zugeordnet werden, die viele benutzerdefinierte Modellimplementierungen hosten. Bei Bedarf müssen die Grenzwertanpassungen pro benutzerdefiniertem Endpunkt separat angefordert werden.
Das Erhöhen des Grenzwerts für gleichzeitige Anforderungen wirkt sich nicht direkt auf Ihre Kosten aus. Der Speech-Dienst verwendet ein Bezahlmodell, das erfordert, dass Sie nur für das bezahlen, was Sie verwenden. Der Grenzwert gibt an, wie hoch der Dienst skaliert werden kann, bevor Ihre Anforderungen gedrosselt werden.
Sie können den vorhandenen Wert des Grenzwertparameters für gleichzeitige Anforderungen weder im Azure-Portal noch in den Befehlszeilentools oder den API-Anforderungen sehen. Erstellen Sie eine Azure-Supportanfrage, um den vorhandenen Wert zu überprüfen.
Hinweis
Für Speech-Container muss der Grenzwert für gleichzeitige Anforderungen nicht erhöht werden, weil Container einzig durch die CPUs der Hardware eingeschränkt sind, auf der sie gehostet werden. Speech-Container haben jedoch ihre eigenen Kapazitätsgrenzen, die berücksichtigt werden sollten. Weitere Informationen finden Sie in den häufig gestellten Fragen zu Speech-Containern.
Abrufen von Informationen für das Basismodell:
Abrufen von Informationen für das benutzerdefinierte Modell:
Übermitteln Sie die Supportanfrage, um für Ihre Ressource die Erhöhung des Grenzwerts für gleichzeitige Anforderungen zu initiieren oder um ggf. den aktuellen Grenzwert zu überprüfen. Gehen Sie dazu wie folgt vor:
Im Folgenden finden Sie ein allgemeines Beispiel für einen guten Ansatz. Es dient nur als Vorlage, die Sie bei Bedarf für Ihre eigenen Zwecke anpassen können.
Angenommen, der Grenzwert für gleichzeitige Anforderungen einer Speech-Dienstressource ist auf „300“ festgelegt. Beginnen Sie die Workload mit 20 gleichzeitigen Verbindungen, und erhöhen Sie die Last alle 90 bis 120 Sekunden um 20 gleichzeitige Verbindungen. Kontrollieren Sie die Dienstantworten, und implementieren Sie die Fallbacklogik, durch die im Falle zu vieler Anforderungen (Antwortcode 429) die Last verringert wird. Probieren Sie dann die Erhöhung der Last nach einer Minute erneut, und wenn dies immer noch nicht funktioniert, versuchen Sie es in zwei Minuten noch mal. Verwenden Sie für die Intervalle ein Muster von 1-2-4-4 Minuten.
Es ist generell empfehlenswert, die Workload und die Workloadmuster zu testen, bevor sie in der Produktion verwendet werden.
Für den Standard-Tarif können Sie diese Menge erhöhen. Stellen Sie vor dem Übermitteln der Anforderung sicher, dass Sie mit dem weiter oben in diesem Artikel besprochenen Material vertraut sind, z. B. mit den bewährten Methoden zum Abmildern der Drosselung.
Das Erhöhen des Grenzwerts für gleichzeitige Anforderungen wirkt sich nicht direkt auf Ihre Kosten aus. Der Speech-Dienst verwendet ein Bezahlmodell, das erfordert, dass Sie nur für das bezahlen, was Sie verwenden. Der Grenzwert gibt an, wie hoch der Dienst skaliert werden kann, bevor Ihre Anforderungen gedrosselt werden.
Sie können den vorhandenen Wert des Grenzwertparameters für gleichzeitige Anforderungen weder im Azure-Portal noch in den Befehlszeilentools oder den API-Anforderungen sehen. Erstellen Sie eine Azure-Supportanfrage, um den vorhandenen Wert zu überprüfen.
Hinweis
Für Speech-Container muss der Grenzwert für gleichzeitige Anforderungen nicht erhöht werden, weil Container einzig durch die CPUs der Hardware eingeschränkt sind, auf der sie gehostet werden.
Zum Erstellen einer Anforderung zur Erhöhung müssen Sie bestimmte Informationen angeben.
Abrufen von Informationen für die vordefinierte Stimme:
Abrufen von Informationen für die benutzerdefinierte Stimme:
Übermitteln Sie die Supportanfrage, um für Ihre Ressource die Erhöhung des Grenzwerts für gleichzeitige Anforderungen zu initiieren oder um ggf. den aktuellen Grenzwert zu überprüfen. Gehen Sie dazu wie folgt vor:
Um den Grenzwert für neue Verbindungen pro Minute für den Sprachsynthese-Avatar zu erhöhen, wenden Sie sich an Ihre Vertriebsfachkraft, um ein Ticket mit den folgenden Informationen zu erstellen:
Ereignisse
Erstellen von KI-Apps und Agents
17. März, 21 Uhr - 21. März, 10 Uhr
Nehmen Sie an der Meetup-Serie teil, um skalierbare KI-Lösungen basierend auf realen Anwendungsfällen mit Mitentwicklern und Experten zu erstellen.
Jetzt registrierenTraining
Modul
Erstellen sprachaktivierter Apps mit Azure KI Services - Training
Erstellen sprachfähiger Apps mit Azure KI Services
Dokumentation
Regionen für den Speech-Dienst - Azure AI services
Eine Liste der verfügbaren Regionen und Endpunkte für den Speech-Dienst, einschließlich Spracherkennung, Sprachsynthese und Sprachübersetzung.
Übersicht über Speech Studio: Speech-Dienst - Azure AI services
Speech Studio besteht aus einer Reihe von benutzeroberflächenbasierten Tools zum Erstellen und Integrieren von Features aus dem Speech-Dienst in Ihre Anwendungen.
Worum handelt es sich beim Speech-Dienst? - Azure AI services
Der Speech-Dienst bietet mit einer Azure Ressource Funktionen für die Spracherkennung (Sprache-in-Text), Sprachsynthese (Text-zu-Sprache) und Sprachübersetzung. Über das Speech SDK, das Speech Studio oder REST-APIs können Sie Ihren Anwendungen, Tools und Geräten Sprachfunktionen hinzufügen.