Quota en limieten voor speech-service

Artikel
01/22/2024

Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor de Speech-service in Azure AI-services. De informatie is van toepassing op alle prijscategorieën van de service. Het bevat ook enkele aanbevolen procedures om aanvraagbeperking te voorkomen.

Zie ook de maandelijkse vergoedingen op de pagina met prijzen voor de gratis prijscategorie (F0).

Referentie voor quota en limieten

In de volgende secties vindt u een beknopt overzicht van de quota en limieten die van toepassing zijn op de Speech-service.

Zie meer uitleg, best practices en aanpassingsinstructies voor informatie over aanpasbare quota voor Standaard (S0) Spraakresources. De quota en limieten voor gratis (F0) Spraakresources zijn niet aanpasbaar.

Belangrijk

Als u een Speech-resource overzet van gratis (F0) naar de prijscategorie Standard (S0), kan het wijzigen van de bijbehorende quota enkele uren duren.

Quota en limieten voor spraak-naar-tekst per resource

In deze sectie worden spraak- en tekstquota en limieten per Speech-resource beschreven. Tenzij anders opgegeven, zijn de limieten niet aanpasbaar.

Realtime spraak naar tekst en spraakomzetting

U kunt realtime spraak naar tekst gebruiken met de Speech SDK of de Speech to Text REST API voor korte audio.

Belangrijk

Deze limieten zijn van toepassing op gelijktijdige realtime spraak naar tekstaanvragen en spraakomzettingsaanvragen gecombineerd. Als u bijvoorbeeld 60 gelijktijdige spraak-naar-tekstaanvragen en 40 gelijktijdige spraakomzettingsaanvragen hebt, bereikt u de limiet van 100 gelijktijdige aanvragen.

Target	Gratis (F0)	Standard (S0)
Limiet voor gelijktijdige aanvragen - basismodeleindpunt	1 Deze limiet is niet aanpasbaar.	100 (standaardwaarde) De snelheid is aanpasbaar voor Standard-resources (S0). Bekijk meer uitleg, best practices en aanpassingsinstructies.
Limiet voor gelijktijdige aanvragen - aangepast eindpunt	1 Deze limiet is niet aanpasbaar.	100 (standaardwaarde) De snelheid is aanpasbaar voor Standard-resources (S0). Bekijk meer uitleg, best practices en aanpassingsinstructies.
Maximale audiolengte voor realtime-diarisatie.	N.v.t.	240 minuten per bestand

Batchtranscriptie

Target	Gratis (F0)	Standard (S0)
Rest API-limiet voor spraak-naar-tekst	Niet beschikbaar voor F0	100 aanvragen per 10 seconden (600 aanvragen per minuut)
Maximale bestandsgrootte voor audio-invoer	N.v.t.	1 GB
Maximum aantal blobs per container	N.v.t.	10000
Maximum aantal bestanden per transcriptieaanvraag (wanneer u meerdere inhouds-URL's als invoer gebruikt).	N.v.t.	1000
Maximale audiolengte voor transcripties waarvoor diarisatie is ingeschakeld.	N.v.t.	240 minuten per bestand

Modelaanpassing

De limieten in deze tabel zijn van toepassing per Speech-resource wanneer u een aangepast spraakmodel maakt.

Target	Gratis (F0)	Standard (S0)
REST API-limiet	100 aanvragen per 10 seconden (600 aanvragen per minuut)	100 aanvragen per 10 seconden (600 aanvragen per minuut)
Maximum aantal spraakgegevenssets	2	500
Maximale bestandsgrootte van akoestische gegevensset voor gegevensimport	2 GB	2 GB
Maximale grootte van taalgegevensset voor gegevensimport	200 MB	1.5 GB
Maximale grootte van uitspraak van gegevenssetbestand voor gegevensimport	1 kB	1 MB
Maximale tekengrootte wanneer u de `text` parameter in de Models_Create API-aanvraag gebruikt	200 kB	500 kB

Quota en limieten voor tekst-naar-spraak per resource

In deze sectie wordt tekst voor spraakquota en limieten per Speech-resource beschreven.

Realtime tekst naar spraak

U kunt realtime tekst gebruiken voor spraak met de Speech SDK of de Text to Speech REST API. Tenzij anders opgegeven, zijn de limieten niet aanpasbaar.

Target	Gratis (F0)	Standard (S0)
Maximum aantal transacties per periode voor vooraf samengestelde neurale stemmen en aangepaste neurale stemmen.	20 transacties per 60 seconden Deze limiet is niet aanpasbaar.	200 transacties per seconde (TPS) (standaardwaarde) De snelheid is aanpasbaar tot 1000 TPS voor Standard-resources (S0). Bekijk meer uitleg, best practices en aanpassingsinstructies.
Maximale audiolengte geproduceerd per aanvraag	10 min.	10 min.
Maximumaantal afzonderlijke en `<voice><audio>` tags in SSML	50	50
Maximale SSML-berichtgrootte per beurt voor websocket	64 kB	64 kB

Batchsynthese

Deze limieten zijn niet aanpasbaar. Zie de latentie en best practices voor batchsynthese voor meer informatie over de latentie van batchsynthese.

Target	Gratis (F0)	Standard (S0)
REST API-limiet	Niet beschikbaar voor F0	100 aanvragen per 10 seconden
Maximale grootte van JSON-nettolading voor het maken van een synthesetaak	N.v.t.	2 megabytes
Gelijktijdige actieve synthesetaken	N.v.t.	Geen limiet
Maximum aantal tekstinvoer per synthesetaak	N.v.t.	10000
Maximale time to live voor een synthesetaak omdat deze de laatste status heeft	N.v.t.	Maximaal 31 dagen (opgegeven met behulp van eigenschappen)

Aangepaste neurale stem - professioneel

De limieten in deze tabel zijn van toepassing per Spraak-resource wanneer u een professioneel aangepast neurale spraakmodel maakt.

Target	Gratis (F0)	Standard (S0)
Maximum aantal transacties per seconde (TPS)	Niet beschikbaar voor F0	200 transacties per seconde (TPS) (standaardwaarde)
Maximum aantal gegevenssets	N.v.t.	500
Maximum aantal gelijktijdige uploads van gegevenssets	N.v.t.	5
Maximale bestandsgrootte voor gegevensimport per gegevensset	N.v.t.	2 GB
Uploaden van lange audio of audio zonder script	N.v.t.	Ja
Maximum aantal gelijktijdige modeltrainingen	N.v.t.	4
Maximum aantal aangepaste eindpunten	N.v.t.	50

Aangepaste neurale stem - persoonlijke stem

De limieten in deze tabel gelden per Spraak-resource wanneer u een persoonlijke stem maakt.

Target	Gratis (F0)	Standard (S0)
REST API-limiet (niet inclusief spraaksynthese)	Niet beschikbaar voor F0	50 aanvragen per 10 seconden
Maximum aantal transacties per seconde (TPS) voor spraaksynthese	Niet beschikbaar voor F0	200 transacties per seconde (TPS) (standaardwaarde)

Avatar realtime tekst naar spraak

Target	Gratis (F0)	Standard (S0)
Nieuwe verbindingen per minuut	Niet beschikbaar voor F0	Twee nieuwe verbindingen per minuut

Hulpprogramma voor het maken van audio-inhoud

Target	Gratis (F0)	Standard (S0)
Bestandsgrootte (tekst zonder opmaak in SSML)¹	3000 tekens per bestand	20.000 tekens per bestand
Bestandsgrootte (lexiconbestand)²	30 kB per bestand	100 kB per bestand
Factureerbare tekens in SSML	15.000 tekens per bestand	100.000 tekens per bestand
Exporteren naar audiobibliotheek	1 gelijktijdige taak	N.v.t.

¹ De limiet geldt alleen voor tekst zonder opmaak in SSML en bevat geen tags.

² De tekens van het lexicon-bestand worden niet in rekening gebracht. Alleen de lexiconelementen in SSML worden meegeteld als factureerbare tekens. Raadpleeg factureerbare tekens voor meer informatie.

Quota en limieten voor sprekerherkenning per resource

Sprekerherkenning is beperkt tot 20 transacties per seconde (TPS).

Gedetailleerde beschrijving, quotaaanpassing en best practices

Sommige van de speech-servicequota zijn aanpasbaar. In deze sectie vindt u meer uitleg, best practices en aanpassingsinstructies.

De volgende quota zijn aanpasbaar voor Standard-resources (S0). De aanvraaglimieten gratis (F0) zijn niet aanpasbaar.

Limiet voor gelijktijdige aanvraag voor spraak-naar-tekst voor basismodeleindpunt en aangepast eindpunt
Maximaal aantal transacties per periode voor tekst-naar-spraak voor vooraf gemaakte neurale stemmen en aangepaste neurale stemmen
Limiet voor gelijktijdige aanvraag voor spraakomzetting

Voordat u een quotumverhoging aanvraagt (indien van toepassing), moet u controleren of het noodzakelijk is. Speech Service maakt gebruik van technologieën voor automatisch schalen om de vereiste rekenresources in de modus op aanvraag te zetten. Tegelijkertijd probeert de Speech-service uw kosten laag te houden door geen overmatige hoeveelheid hardwarecapaciteit te behouden.

We kijken naar een voorbeeld. Stel dat uw toepassing antwoordcode 429 ontvangt, wat aangeeft dat er te veel aanvragen zijn. Uw toepassing ontvangt dit antwoord, ook al valt uw workload binnen de limieten die zijn gedefinieerd door de referentie quota en limieten. De meest waarschijnlijke verklaring is dat de Speech-service omhoog schaalt naar uw vraag en de vereiste schaal nog niet heeft bereikt. Daarom beschikt de service niet onmiddellijk over voldoende resources om de aanvraag te verwerken. In de meeste gevallen is deze beperkte status tijdelijk.

Algemene aanbevolen procedures om beperking tijdens automatisch schalen te beperken

Als u problemen met betrekking tot beperking wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:

Implementeert logica voor opnieuw proberen in uw toepassing.
Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk. Stel dat uw toepassing tekst naar spraak gebruikt en dat uw huidige werkbelasting 5 TPS is. De volgende seconde verhoogt u de belasting tot 20 TPS (dat wil gezegd vier keer meer). Speech Service begint onmiddellijk omhoog te schalen om te voldoen aan de nieuwe belasting, maar kan binnen één seconde niet worden geschaald. Sommige aanvragen krijgen antwoordcode 429 (te veel aanvragen).
Test verschillende patronen voor belastingverhoging. Zie het voorbeeld van het workloadpatroon voor meer informatie.
Maak meer Speech-serviceresources in verschillende regio's en distribueer de workload ertussen. (Het maken van meerdere Speech-serviceresources in dezelfde regio heeft geen invloed op de prestaties, omdat alle resources worden geleverd door hetzelfde back-endcluster).

In de volgende secties worden specifieke gevallen beschreven van het aanpassen van quota.

Spraak-naar-tekst: de limiet voor gelijktijdige aanvragen voor realtime spraak naar tekst verhogen

Standaard is het aantal gelijktijdige realtime spraak-naar-tekst- en spraakomzettingsaanvragen beperkt tot 100 per resource in het basismodel en 100 per aangepast eindpunt in het aangepaste model. Voor de prijscategorie Standard kunt u dit bedrag verhogen. Voordat u de aanvraag indient, moet u ervoor zorgen dat u bekend bent met het materiaal dat eerder in dit artikel is besproken, zoals de aanbevolen procedures om beperking te beperken.

Notitie

Gelijktijdige aanvraaglimieten voor basis- en aangepaste modellen moeten afzonderlijk worden aangepast. U kunt een Speech-serviceresource hebben die is gekoppeld aan veel aangepaste eindpunten die veel aangepaste modelimplementaties hosten. Indien nodig moeten de limietaanpassingen per aangepast eindpunt afzonderlijk worden aangevraagd.

Het verhogen van de limiet van gelijktijdige aanvragen heeft geen directe invloed op uw kosten. De Speech-service maakt gebruik van een betalingsmodel dat vereist dat u alleen betaalt voor wat u gebruikt. De limiet bepaalt hoe hoog de service kan worden geschaald voordat uw aanvragen worden beperkt.

U kunt de bestaande waarde van de parameter voor de gelijktijdige aanvraaglimiet niet zien in Azure Portal, de opdrachtregelprogramma's of API-aanvragen. Als u de bestaande waarde wilt controleren, maakt u een ondersteuning voor Azure aanvraag.

Notitie

Voor spraakcontainers is geen verhoging van de gelijktijdige aanvraaglimiet vereist, omdat containers alleen worden beperkt door de CPU's van de hardware waarop ze worden gehost. Spraakcontainers hebben echter wel hun eigen capaciteitsbeperkingen waarmee rekening moet worden gehouden. Zie de veelgestelde vragen over Spraakcontainers voor meer informatie.

De vereiste informatie gereed hebben

Voor het basismodel:
- Spraakresource-id
- Regio
Voor het aangepaste model:
- Regio
- Aangepaste eindpunt-id

Informatie ophalen voor het basismodel:

Ga naar de Azure Portal.
Selecteer de Speech-serviceresource waarvoor u de limiet voor gelijktijdigheidsaanvragen wilt verhogen.
Selecteer Eigenschappen in de resourcebeheergroep.
Kopieer en sla de waarden van de volgende velden op:
- Resource-id
- Locatie (uw eindpuntregio)

Informatie ophalen voor het aangepaste model:

Ga naar de Speech Studio-portal .
Meld u indien nodig aan en ga naar Aangepaste spraak.
Selecteer uw project en ga naar Implementatie.
Selecteer het vereiste eindpunt.
Kopieer en sla de waarden van de volgende velden op:
- Serviceregio (uw eindpuntregio)
- Eindpunt-id

Een ondersteuningsaanvraag maken en indienen

Start de verhoging van de limiet voor gelijktijdige aanvragen voor uw resource of controleer indien nodig de huidige limiet door een ondersteuningsaanvraag in te dienen. U doet dit als volgt:

Zorg ervoor dat u de vereiste informatie in de vorige sectie hebt.
Ga naar de Azure Portal.
Selecteer de Speech-serviceresource waarvoor u de limiet voor gelijktijdigheidsaanvragen wilt verhogen (of controleren).
Selecteer nieuwe ondersteuningsaanvraag in de groep Ondersteuning en probleemoplossing. Er wordt een nieuw venster weergegeven met automatisch ingevulde informatie over uw Azure-abonnement en Azure-resource.
Beschrijf in het overzicht wat u wilt (bijvoorbeeld 'Vraaglimiet voor spraak naar tekst gelijktijdigheid verhogen').
Selecteer quotum- of abonnementsproblemen in probleemtype.
Selecteer in het subtype Probleem een van de volgende opties:
- Quotum of gelijktijdige aanvragen verhogen voor een verhogingsaanvraag.
- Validatie van quotum of gebruik om de bestaande limiet te controleren.
Selecteer Volgende: oplossingen. Ga verder met het maken van de aanvraag.
Voer op het tabblad Details in het veld Beschrijving het volgende in:
- Een opmerking dat de aanvraag betrekking heeft op het spraak-naar-tekstquotum.
- Kies het basismodel of het aangepaste model.
- De Azure-resourcegegevens die u eerder hebt verzameld.
- Alle andere vereiste informatie.
Selecteer op het tabblad Beoordelen en maken de optie Maken.
Noteer het nummer van de ondersteuningsaanvraag in Azure Portal-meldingen. U wordt binnenkort gecontacteerd over uw aanvraag.

Voorbeeld van een best practice voor een workloadpatroon

Hier volgt een algemeen voorbeeld van een goede aanpak. Het is alleen bedoeld als een sjabloon die u zo nodig kunt aanpassen voor uw eigen gebruik.

Stel dat voor een Speech-serviceresource de limiet voor gelijktijdige aanvragen is ingesteld op 300. Start de workload vanaf 20 gelijktijdige verbindingen en verhoog de belasting met 20 gelijktijdige verbindingen elke 90-120 seconden. Beheer de servicereacties en implementeer de logica die terugvalt (vermindert de belasting) als u te veel aanvragen krijgt (antwoordcode 429). Voer vervolgens de belastingsverhoging in één minuut opnieuw uit en als de belasting nog steeds niet werkt, probeert u het over twee minuten opnieuw. Gebruik een patroon van 1-2-4-4 minuten voor de intervallen.

Over het algemeen is het een goed idee om de workload en de workloadpatronen te testen voordat u naar productie gaat.

Tekst naar spraak: limiet voor gelijktijdige aanvragen verhogen

Voor de prijscategorie Standard kunt u dit bedrag verhogen. Voordat u de aanvraag indient, moet u ervoor zorgen dat u bekend bent met het materiaal dat eerder in dit artikel is besproken, zoals de aanbevolen procedures om beperking te beperken.

Het verhogen van de limiet van gelijktijdige aanvragen heeft geen directe invloed op uw kosten. Speech Service maakt gebruik van een betalingsmodel waarvoor u alleen betaalt voor wat u gebruikt. De limiet bepaalt hoe hoog de service kan worden geschaald voordat uw aanvragen worden beperkt.

Notitie

Voor spraakcontainers is geen verhoging van de gelijktijdige aanvraaglimiet vereist, omdat containers alleen worden beperkt door de CPU's van de hardware waarop ze worden gehost.

De vereiste informatie voorbereiden

Als u een verhogingsaanvraag wilt maken, moet u uw gegevens opgeven.

Voor de vooraf gemaakte stem:
- Spraakresource-id
- Regio
Voor de aangepaste stem:
- Implementatieregio
- Aangepaste eindpunt-id

Informatie ophalen voor de vooraf gemaakte stem:

Ga naar de Azure Portal.
Selecteer de Speech-serviceresource waarvoor u de limiet voor gelijktijdigheidsaanvragen wilt verhogen.
Selecteer Eigenschappen in de resourcebeheergroep.
Kopieer en sla de waarden van de volgende velden op:
- Resource-id
- Locatie (uw eindpuntregio)

Informatie ophalen voor de aangepaste stem:

Ga naar de Speech Studio-portal .
Meld u indien nodig aan en ga naar Aangepaste spraak.
Selecteer uw project en ga naar Model implementeren.
Selecteer het vereiste eindpunt.
Kopieer en sla de waarden van de volgende velden op:
- Serviceregio (uw eindpuntregio)
- Eindpunt-id

Een ondersteuningsaanvraag maken en indienen

Start de verhoging van de limiet voor gelijktijdige aanvragen voor uw resource of controleer indien nodig de huidige limiet door een ondersteuningsaanvraag in te dienen. U doet dit als volgt:

Zorg ervoor dat u de vereiste informatie in de vorige sectie hebt.
Ga naar de Azure Portal.
Selecteer de Speech-serviceresource waarvoor u de limiet voor gelijktijdigheidsaanvragen wilt verhogen (of controleren).
Selecteer nieuwe ondersteuningsaanvraag in de groep Ondersteuning en probleemoplossing. Er wordt een nieuw venster weergegeven met automatisch ingevulde informatie over uw Azure-abonnement en Azure-resource.
Beschrijf in het overzicht wat u wilt (bijvoorbeeld 'Tekst verhogen tot aanvraaglimiet voor gelijktijdigheid van spraak').
Selecteer quotum- of abonnementsproblemen in probleemtype.
Selecteer in het subtype Probleem een van de volgende opties:
- Quotum of gelijktijdige aanvragen verhogen voor een verhogingsaanvraag.
- Validatie van quotum of gebruik om de bestaande limiet te controleren.
Selecteer Volgende op het tabblad Aanbevolen oplossing.
Vul op het tabblad Aanvullende details alle vereiste items in. Voer in het veld Details het volgende in:
- Een opmerking dat de aanvraag betrekking heeft op de tekst naar het spraakquotum.
- Kies de vooraf gemaakte stem of aangepaste stem.
- De Azure-resourcegegevens die u eerder hebt verzameld.
- Alle andere vereiste informatie.
Selecteer op het tabblad Beoordelen en maken de optie Maken.
Noteer het nummer van de ondersteuningsaanvraag in Azure Portal-meldingen. U wordt binnenkort gecontacteerd over uw aanvraag.

Quota en limieten voor speech-service

Referentie voor quota en limieten

Quota en limieten voor spraak-naar-tekst per resource

Realtime spraak naar tekst en spraakomzetting

Batchtranscriptie

Modelaanpassing

Quota en limieten voor tekst-naar-spraak per resource

Realtime tekst naar spraak

Batchsynthese

Aangepaste neurale stem - professioneel

Aangepaste neurale stem - persoonlijke stem

Avatar realtime tekst naar spraak

Hulpprogramma voor het maken van audio-inhoud

Quota en limieten voor sprekerherkenning per resource

Gedetailleerde beschrijving, quotaaanpassing en best practices

Algemene aanbevolen procedures om beperking tijdens automatisch schalen te beperken

Spraak-naar-tekst: de limiet voor gelijktijdige aanvragen voor realtime spraak naar tekst verhogen

De vereiste informatie gereed hebben

Een ondersteuningsaanvraag maken en indienen

Voorbeeld van een best practice voor een workloadpatroon

Tekst naar spraak: limiet voor gelijktijdige aanvragen verhogen

De vereiste informatie voorbereiden

Een ondersteuningsaanvraag maken en indienen

Aanvullende resources