Az Azure OpenAI szolgáltatás kvótái és korlátai
Ez a cikk rövid áttekintést és részletes leírást tartalmaz az Azure OpenAI azure AI-szolgáltatásokban való kvótáiról és korlátairól.
Kvóták és korlátok referenciája
Az alábbi szakaszok gyors útmutatót nyújtanak az Azure OpenAI-ra vonatkozó alapértelmezett kvótákról és korlátokról:
Korlát neve | Határérték |
---|---|
OpenAI-erőforrások régiónként Azure-előfizetésenként | 30 |
Alapértelmezett DALL-E 2 kvótakorlátok | 2 egyidejű kérés |
Alapértelmezett DALL-E 3 kvótakorlátok | 2 kapacitásegység (percenként 6 kérelem) |
Alapértelmezett suttogókvótakorlátok | 3 kérés percenként |
Kérésenkénti jogkivonatok maximális száma | Modellenként változó. További információ: Azure OpenAI-szolgáltatásmodellek |
A modell maximális finomhangolt üzembe helyezése | 5 |
Betanítási feladatok teljes száma erőforrásonként | 100 |
Betanítási feladatok egyidejű futtatásának maximális száma erőforrásonként | 0 |
Várólistára helyezett betanítási feladatok maximális száma | 20 |
Fájlok maximális száma erőforrásonként (finomhangolás) | 50 |
Az összes fájl teljes mérete erőforrásonként (finomhangolás) | 1 GB |
Betanítási feladat maximális időtartama (a feladat túllépése esetén sikertelen lesz) | 720 óra |
Betanítási feladat maximális mérete (jogkivonatok a betanítási fájlban) x (az alapidőszakok száma) | 2 milliárd |
Az összes fájl maximális mérete feltöltésenként (az Azure OpenAI az adatokon) | 16 MB |
Maximális szám vagy bemenet a tömbben a következővel: /embeddings |
2048 |
Üzenetek maximális száma /chat/completions |
2048 |
Függvények /chat/completions maximális száma |
128 |
Eszközök maximális száma /chat completions |
128 |
Kiosztott átviteli egységek maximális száma üzemelő példányonként | 100 000 |
Fájlok maximális száma asszisztensenként/szálonként | 20 |
Az Asszisztensek maximális fájlmérete > finomhangolása | 512 MB |
Asszisztensek jogkivonat-korlátja | 2 000 000 tokenkorlát |
GPT-4o maximális képek kérésenként (az üzenetek tömbjében/beszélgetési előzményeiben lévő képek száma) | 10 |
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 alapértelmezett maximális jogkivonatok |
16 Növelje a paraméter értékét a max_tokens csonkolt válaszok elkerülése érdekében. A GPT-4o maximális jogkivonatok alapértelmezett értéke 4096. |
Regionális kvótakorlátok
Régió | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o - GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-4 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ausztráliaeast | 40 K | 80 K | 80 K | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | - | 450 K 10 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | - | 250 K |
francecentral | 20 e | 60 K | 80 K | - | - | 450 K 10 M |
240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
norwayeast | - | - | 150 K | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
lengyelországcentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
USA déli középső régiója | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | 450 K 10 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 150 K 1 M |
450 K 10 M |
300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
svájcwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | - | 250 K |
uksouth | - | - | 80 K | - | - | 450 K 10 M |
240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | 450 K 10 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
- | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
gpt-4o sebességkorlátok
gpt-4o
az egyes ügyféltípusokra vonatkozó magasabb korlátokkal rendelkező sebességkorlát-szinteket vezet be.
gpt-4o globális szabvány
Szint | Kvótakorlát a jogkivonatokban percenként (TPM) | Kérelem/perc |
---|---|---|
Nagyvállalati szerződés | 10 M | 60 K |
Alapértelmezett | 450 K | 2.7 K |
M = millió | K = ezer
gpt-4o standard
Szint | Kvótakorlát a jogkivonatokban percenként (TPM) | Kérelem/perc |
---|---|---|
Nagyvállalati szerződés | 1 M | 6 K |
Alapértelmezett | 150 K | 900 |
M = millió | K = ezer
Használati szintek
A globális standard üzemelő példányok az Azure globális infrastruktúráját használják, dinamikusan irányítva az ügyfélforgalmat az adatközpontba, a legjobb rendelkezésre állással az ügyfél következtetési kérelmeihez. Ez konzisztensebb késést tesz lehetővé az alacsony és közepes szintű forgalommal rendelkező ügyfelek számára. A magas szintű használattal rendelkező ügyfelek nagyobb varianciát láthatnak a válaszkésésben.
A használati korlát határozza meg azt a használati szintet, amely felett az ügyfelek nagyobb varianciát láthatnak a válaszkésésben. Az ügyfél kihasználtsága modellenként van meghatározva, és az adott bérlő összes előfizetésében az összes üzembe helyezéshez felhasznált összes jogkivonat.
GPT-4o globális standard > standard
Modell | Használati szintek havonta |
---|---|
GPT-4o |
1,5 milliárd token |
Egyéb ajánlattípusok
Ha az Azure-előfizetés bizonyos ajánlattípusokhoz van társítva, a maximális kvótaértékek alacsonyabbak, mint a fenti táblákban megadott értékek.
Szint | Kvótakorlát a jogkivonatokban percenként (TPM) |
---|---|
Azure for Students, ingyenes próbaverziók | 1 K (minden modell) |
MSDN-előfizetések | GPT 3.5 Turbo sorozat: 30 K GPT-4 sorozat: 8 K |
Havi hitelkártya-alapú előfizetések 1 | GPT 3.5 Turbo sorozat: 30 K GPT-4 sorozat: 8 K |
1 Ez jelenleg a 0003P ajánlattípusra vonatkozik
Az Azure Portalon megtekintheti az előfizetéshez társított ajánlattípust az előfizetéshez való navigálással és az előfizetések áttekintési paneljének ellenőrzésével. Az ajánlat típusa megfelel az előfizetés áttekintésében szereplő csomagmezőnek.
Általános ajánlott eljárások a sebességkorláton belül maradásához
A sebességkorlátokkal kapcsolatos problémák minimalizálása érdekében érdemes az alábbi technikákat használni:
- Implementáljon újrapróbálkozási logikát az alkalmazásba.
- Kerülje a hirtelen terhelésváltásokat. Fokozatosan növelje a munkaterhelést.
- Teszteljen különböző terhelésnövelési mintákat.
- Növelje az üzemelő példányhoz rendelt kvótát. Szükség esetén áthelyezheti a kvótát egy másik üzembe helyezésből.
Az alapértelmezett kvóták és korlátok növelésének kérése
A kvótanövelési kérelmek az Azure OpenAI Studio Kvóták oldaláról küldhetők el. Vegye figyelembe, hogy a túlterheltség miatt a kvótanövelési kérelmeket elfogadjuk, és a beérkezés sorrendjében lesznek kitöltve. A rendszer prioritást kap azoknak az ügyfeleknek, akik a meglévő kvótafoglalást használó forgalmat generálják, és a kérés megtagadható, ha ez a feltétel nem teljesül.
Egyéb díjkorlátok esetén küldjön egy szolgáltatáskérést.
Következő lépések
Megtudhatja, hogyan kezelheti az Azure OpenAI-üzemelő példányok kvótáját . További információ az Azure OpenAI-t használó mögöttes modellekről.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: