Quotum voor Azure OpenAI beheren in Azure AI Foundry-modellen

2025-07-02

Quota biedt de flexibiliteit om de toewijzing van snelheidslimieten actief te beheren voor de implementaties binnen uw abonnement. In dit artikel wordt het proces voor het beheren van uw Azure OpenAI-quotum beschreven.

Vereiste voorwaarden

Belangrijk

Voor elke taak waarvoor het beschikbare quotum moet worden bekeken, raden wij aan de rol Cognitive Services-gebruik Lezer te gebruiken. Deze rol biedt de minimale toegang die nodig is om het quotumgebruik voor een Azure-abonnement weer te geven. Raadpleeg onze handleiding voor op rollen gebaseerd toegangsbeheer van Azure voor meer informatie over deze rol en de andere rollen die u nodig hebt voor toegang tot Azure OpenAI.

Deze rol vindt u in De Azure-portal onder Toegangsbeheer voor abonnementen>(IAM)> voor Cognitive Services Usages Reader toe. Deze rol moet worden toegepast op abonnementsniveau. Deze rol bestaat niet op resourceniveau.

Als u deze rol niet wilt gebruiken, biedt de rol Lezer van het abonnement gelijkwaardige toegang, maar verleent deze ook leestoegang buiten het bereik van wat nodig is voor het weergeven van quota en modelimplementatie.

Inleiding tot quotum

Met de quotumfunctie van Azure OpenAI kunt u frequentielimieten toewijzen aan uw implementaties, tot een globale limiet genaamd uw quotum. Het quotum wordt toegewezen aan uw abonnement per regio, per model in eenheden tokens per minuut (TPM). Wanneer u een abonnement op Azure OpenAI onboardt, ontvangt u een standaardquotum voor de meeste beschikbare modellen. Vervolgens wijst u TPM toe aan elke implementatie zodra deze wordt gecreëerd, en wordt het beschikbare quotum voor dat model met datzelfde bedrag verminderd. U kunt implementaties blijven maken en TPM toewijzen totdat u de quotumlimiet hebt bereikt. Zodra dat gebeurt, kunt u alleen nieuwe implementaties van dat model maken door de TPM te verminderen die is toegewezen aan andere implementaties van hetzelfde model (waardoor TPM wordt vrijgemaakt voor gebruik), of door een verhoging van het modelquotum in de gewenste regio aan te vragen en te worden goedgekeurd.

Opmerking

Met een quotum van 240.000 TPM voor GPT-4o in VS - oost kan een klant één implementatie maken van 240 K TPM, 2 implementaties van elk 120 K TPM, of een willekeurig aantal implementaties in één of meerdere Azure OpenAI-resources, mits hun TPM maximaal 240 K totaal in die regio optelt.

Wanneer een implementatie wordt gemaakt, zal de toegewezen TPM rechtstreeks overeenkomen met de tokens-per-minuut snelheidslimiet die wordt afgedwongen op de inferentieaanvragen. Een rpm-frequentielimiet (Requests-Per-Minute) wordt ook afgedwongen waarvan de waarde proportioneel is ingesteld op de TPM-toewijzing met behulp van de volgende verhouding:

Belangrijk

De verhouding van aanvragen per minuut (RPM) tot tokens per minuut (TPM) voor quotum kan per model variëren. Wanneer u een model programmatisch implementeert of een quotumverhoging aanvraagt , hebt u geen gedetailleerde controle over TPM en RPM als onafhankelijke waarden. Het quotum wordt toegewezen in termen van capaciteitseenheden met overeenkomstige hoeveelheden RPM en TPM:

Modelleren	Capaciteit	Aanvragen per minuut (RPM)	Tokens per minuut (TPM)
Oudere chatmodellen:	1 eenheid	6 tpm	1.000 TPM
o1 & o1-preview:	1 eenheid	1 tpm	6.000 TPM
o3	1 eenheid	1 tpm	1.000 TPM
o4-mini	1 eenheid	1 tpm	1.000 TPM
o3-mini:	1 eenheid	1 tpm	10 000 TPM
o1-mini:	1 eenheid	1 tpm	10 000 TPM
o3-pro:	1 eenheid	1 tpm	10 000 TPM

Dit is met name belangrijk voor programmatische modelimplementatie, omdat wijzigingen in de RPM-/TPM-verhouding kunnen leiden tot een onbedoelde onjuiste toewijzing van het quotum. Zie quota en limieten voor meer informatie.

De flexibiliteit om TPM wereldwijd te distribueren binnen een abonnement en een regio heeft Azure OpenAI in staat gesteld om andere beperkingen te versoepelen.

Het maximum aantal resources per regio wordt verhoogd tot 30.
De limiet voor het maken van niet meer dan één implementatie van hetzelfde model in een resource is verwijderd.

Quotum toewijzen

Wanneer u een modelimplementatie maakt, kunt u tokens per minuut (TPM) toewijzen aan die implementatie. TPM kan worden gewijzigd in stappen van 1000, en zal worden afgestemd op de TPM- en RPM-snelheidslimieten die zijn afgedwongen voor uw implementatie, zoals hierboven is besproken.

Als u een nieuwe implementatie wilt maken vanuit de Azure AI Foundry-portal, selecteert u Deployments>Model implementeren>Basismodel inzetten>Select Model>Bevestigen.

Na de implementatie kunt u uw TPM-toewijzing aanpassen door uw model te selecteren en te bewerken op de pagina Implementaties in de Azure AI Foundry-portal. U kunt deze instelling ook wijzigen op de quotumpagina van het beheermodel>.

Belangrijk

Quota en limieten kunnen worden gewijzigd, voor de meest recente informatie raadpleegt u ons artikel over quota en limieten.

Meer quotum aanvragen

Aanvragen voor quotumverhoging kunnen worden ingediend via het aanvraagformulier voor quotumverhoging. Vanwege een hoge vraag worden aanvragen voor quotumverhoging geaccepteerd en worden ze ingevuld in de volgorde waarin ze worden ontvangen. Er wordt prioriteit gegeven aan klanten die verkeer genereren dat gebruikmaakt van de bestaande quotumtoewijzing en uw aanvraag kan worden geweigerd als niet aan deze voorwaarde wordt voldaan.

Modelspecifieke instellingen

Verschillende modelimplementaties, ook wel modelklassen genoemd, hebben unieke tpm-waarden die u nu kunt beheren. Dit vertegenwoordigt de maximale hoeveelheid TPM die kan worden toegewezen aan dat type modelimplementatie in een bepaalde regio.

Alle andere modelklassen hebben een gemeenschappelijke maximale TPM-waarde.

Opmerking

De toewijzing van quotumtokensPer-Minute (TPM) is niet gerelateerd aan de maximale invoertokenlimiet van een model. Modelinvoertokenlimieten worden gedefinieerd in de modellentabel en worden niet beïnvloed door wijzigingen in TPM.

Quotum weergeven en aanvragen

Voor een volledige weergave van uw quotumtoewijzingen voor implementaties in een bepaalde regio selecteert uBeheerquotum> in de Azure AI Foundry-portal:

Implementatie: Modelimplementaties gedeeld door modelklasse.
Quotumtype: Er is één quotumwaarde per regio voor elk modeltype. Het quotum omvat alle versies van dat model.
Quotumtoewijzing: Voor de quotumnaam geeft dit aan hoeveel quotum wordt gebruikt door implementaties en het totale quotum dat is goedgekeurd voor dit abonnement en de regio. Dit aantal gebruikte quota wordt ook weergegeven in het staafdiagram.
Aanvraagquotum: Het pictogram navigeert naar dit formulier waarin aanvragen om het quotum te verhogen kunnen worden ingediend.

Bestaande implementaties migreren

Als onderdeel van de overgang naar het nieuwe quotumsysteem en de toewijzing op basis van TPM zijn alle bestaande Azure OpenAI-modelimplementaties automatisch gemigreerd om quota te gebruiken. In gevallen waarin de bestaande TPM/RPM-toewijzing de standaardwaarden overschrijdt als gevolg van eerdere verhogingen van de aangepaste frequentielimiet, zijn equivalente TPM toegewezen aan de betrokken implementaties.

Inzicht in tarieflimieten

Als u TPM toewijst aan een implementatie, worden de frequentielimieten tokens per minuut (TPM) en RPM (Requests-Per-Minute) voor de implementatie ingesteld, zoals hierboven wordt beschreven. TPM-frequentielimieten zijn gebaseerd op het maximum aantal tokens dat naar schatting door een aanvraag wordt verwerkt op het moment dat de aanvraag wordt ontvangen. Het is niet hetzelfde als het tokenaantal dat wordt gebruikt voor facturering, wat wordt berekend nadat alle verwerking is voltooid.

Wanneer elke aanvraag wordt ontvangen, berekent Azure OpenAI een geschatte maximumaantal verwerkte tokens dat het volgende omvat:

Tekst vragen en tellen
De parameterinstelling max_tokens
De parameterinstelling best_of

Wanneer aanvragen binnenkomen in het implementatie-eindpunt, wordt het geschatte maximumaantal verwerkte token toegevoegd aan een actief tokenaantal van alle aanvragen die elke minuut opnieuw worden ingesteld. Als de TPM-frequentielimietwaarde op enig moment tijdens die minuut wordt bereikt, ontvangen verdere aanvragen een 429-antwoordcode totdat de teller opnieuw wordt ingesteld.

Belangrijk

Het tokenaantal dat wordt gebruikt in de berekening van de frequentielimiet is een schatting die gedeeltelijk is gebaseerd op het aantal tekens van de API-aanvraag. De schattingen voor snelheidslimiettokens zijn niet hetzelfde als de tokenberekening die wordt gebruikt voor facturering en het bepalen dat een aanvraag zich onder de inputtokenlimiet van een model bevindt. Vanwege de geschatte aard van de berekening van de rate limit token, is het normaal dat een rate limit eerder kan worden geactiveerd dan je verwacht had in vergelijking met een exacte meting van het aantal tokens voor elke aanvraag.

RPM-frequentielimieten zijn gebaseerd op het aantal aanvragen dat in de loop van de tijd is ontvangen. De frequentielimiet verwacht dat aanvragen gelijkmatig worden verdeeld over een periode van één minuut. Als deze gemiddelde stroom niet wordt gehandhaafd, ontvangen aanvragen mogelijk een 429-antwoord, ook al wordt de limiet niet bereikt wanneer deze gedurende een minuut wordt gemeten. Om dit gedrag te implementeren, evalueert Azure OpenAI de snelheid van binnenkomende aanvragen gedurende een korte periode, meestal 1 of 10 seconden. Als het aantal aanvragen dat tijdens die periode wordt ontvangen, groter is dan wat er wordt verwacht bij de ingestelde RPM-limiet, ontvangen nieuwe aanvragen een responscode van 429 tot de volgende evaluatieperiode. Als Azure OpenAI bijvoorbeeld de aanvraagsnelheid controleert op intervallen van 1 seconde, vindt frequentielimiet plaats voor een implementatie van 600 RPM als er meer dan 10 aanvragen worden ontvangen tijdens elke periode van 1 seconde (600 aanvragen per minuut = 10 aanvragen per seconde).

Aanbevolen werkwijzen voor snelheidslimieten

Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:

Stel max_tokens en best_of in op de minimumwaarden die voldoen aan de behoeften van uw scenario. Stel bijvoorbeeld geen grote waarde voor max-tokens in als u verwacht dat uw antwoorden klein zijn.
Gebruik quotumbeheer om TPM bij implementaties met hoog verkeer te verhogen en TPM te verminderen op implementaties met beperkte behoeften.
Implementeert logica voor opnieuw proberen in uw toepassing.
Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
Test verschillende patronen voor belastingverhoging.

Implementatie automatiseren

Deze sectie bevat korte voorbeeldsjablonen waarmee u programmatisch implementaties kunt maken die gebruikmaken van quota om TPM-frequentielimieten in te stellen. Met de introductie van quota moet u api-versie 2023-05-01 gebruiken voor gerelateerde activiteiten voor resourcebeheer. Deze API-versie is alleen bedoeld voor het beheren van uw resources en heeft geen invloed op de API-versie die wordt gebruikt voor inferentie-aanroepen zoals voltooiingen, chatvoltooiingen, embeddings, beeldgeneratie, enzovoort.

Uitrol

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

Padparameters

Kenmerk	Typologie	Vereist?	Beschrijving
`accountName`	touw	Verplicht	De naam van uw Azure OpenAI-resource.
`deploymentName`	touw	Verplicht	De implementatienaam die u hebt gekozen bij het implementeren van een bestaand model of de naam die u wilt gebruiken voor een nieuwe modelimplementatie.
`resourceGroupName`	touw	Verplicht	De naam van de gekoppelde resourcegroep voor deze modelimplementatie.
`subscriptionId`	touw	Verplicht	Abonnements-id voor het bijbehorende abonnement.
`api-version`	touw	Verplicht	De API-versie die voor deze bewerking moet worden gebruikt. Dit volgt de indeling JJJJ-MM-DD.

Ondersteunde versies

2023-05-01 Swagger-specificatie

aanvraaginhoud

Dit is slechts een subset van de beschikbare parameters voor de body van de aanvraag. Raadpleeg de REST API-referentiedocumentatie voor de volledige lijst met parameters.

Kenmerk	Typologie	Beschrijving
Sku	Sku	De definitie van het resourcemodel dat de SKU vertegenwoordigt.
capaciteit	integer	Dit vertegenwoordigt de hoeveelheid quotum die u aan deze implementatie toewijst. Een waarde van 1 is gelijk aan 1000 tokens per minuut (TPM). Een waarde van 10 is gelijk aan 10.000 tokens per minuut (TPM).

Voorbeeld van aanvraag

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-4o-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-4o","version": "2024-11-20"}}}'

Opmerking

Er zijn meerdere manieren om een autorisatietoken te genereren. De eenvoudigste methode voor eerste tests is het starten van Cloud Shell vanuit Azure Portal. Voer vervolgens az account get-access-tokenuit. U kunt dit token gebruiken als uw tijdelijke autorisatietoken voor API-tests.

Zie de REST API-referentiedocumentatie voor gebruik en implementatie voor meer informatie.

Gebruik

Een query uitvoeren op uw quotumgebruik in een bepaalde regio voor een specifiek abonnement

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

Padparameters

Kenmerk	Typologie	Vereist?	Beschrijving
`subscriptionId`	touw	Verplicht	Abonnements-id voor het bijbehorende abonnement.
`location`	touw	Verplicht	Locatie voor het weergeven van gebruik voor bijvoorbeeld: `eastus`
`api-version`	touw	Verplicht	De API-versie die voor deze bewerking moet worden gebruikt. Dit volgt de indeling JJJJ-MM-DD.

Ondersteunde versies

2023-05-01 Swagger-specificatie

Voorbeeld van aanvraag

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'

Installeer de Azure CLI. Het quotum is vereist Azure CLI version 2.51.0. Als u Azure CLI al lokaal hebt geïnstalleerd, voer az upgrade uit om bij te werken naar de nieuwste versie.

Als u wilt controleren welke versie van Azure CLI u gebruikt az version. Azure Cloud Shell draait momenteel nog steeds op versie 2.50.0, dus tot die tijd is het nodig om Azure CLI lokaal te installeren om te profiteren van de nieuwste Azure OpenAI-functies.

Uitrol

az cognitiveservices account deployment create --model-format
                                               --model-name
                                               --model-version
                                               --name
                                               --resource-group
                                               [--capacity]
                                               [--deployment-name]
                                               [--scale-capacity]
                                               [--scale-settings-scale-type {Manual, Standard}]
                                               [--sku]

Voer de az login opdracht uit om u aan te melden bij de lokale installatie van de CLI:

az login

Door de SKU-capaciteit in te stellen op 10 in de onderstaande opdracht, wordt deze implementatie ingesteld met een TPM-limiet van 10 K.

az cognitiveservices account deployment create -g test-resource-group -n test-resource-name --deployment-name test-deployment-name --model-name gpt-4o --model-version "2024-11-20" --model-format OpenAI --sku-capacity 10 --sku-name "Standard"

Gebruik

Een query uitvoeren op uw quotumgebruik in een bepaalde regio voor een specifiek abonnement

az cognitiveservices usage list --location

Voorbeeld

az cognitiveservices usage list -l eastus

Deze opdracht wordt uitgevoerd in de context van het momenteel actieve abonnement voor Azure CLI. Gebruik az-account-set --subscription dit om het actieve abonnement te wijzigen.

Zie de naslagdocumentatie voor Azure CLI voor meer informatie

Installeer de nieuwste versie van de Az PowerShell-module. Als u de Az PowerShell-module al lokaal hebt geïnstalleerd, voert u deze uit Update-Module -Name Az om bij te werken naar de nieuwste versie.

Als u wilt controleren welke versie van de Az PowerShell-module u gebruikt, gebruikt u Get-InstalledModule -Name Az. Azure Cloud Shell voert momenteel een versie van Azure PowerShell uit die kan profiteren van de nieuwste Azure OpenAI-functies.

Uitrol

New-AzCognitiveServicesAccountDeployment
   [-ResourceGroupName] <String>
   [-AccountName] <String>
   [-Name] <String>
   [-Properties] <DeploymentProperties>
   [-Sku] <Sku>
   [-DefaultProfile <IAzureContextContainer>]
   [-WhatIf]
   [-Confirm]
   [<CommonParameters>]

Voer de opdracht Connect-AzAccount uit om u aan te melden bij uw lokale installatie van Azure PowerShell:

Connect-AzAccount

Door SKU-capaciteit in te stellen op 10 in de onderstaande opdracht, wordt deze implementatie ingesteld op een TPM-limiet van 10.000.

$cognitiveServicesDeploymentParams = @{
    ResourceGroupName = 'test-resource-group'
    AccountName = 'test-resource-name'
    Name = 'test-deployment-name'
    Properties = @{
        Model = @{
            Name = 'gpt-4o'
            Version = '2024-11-20'
            Format  = 'OpenAI'
        }
    }
    Sku = @{
        Name = 'Standard'
        Capacity = '10'
    }
}
New-AzCognitiveServicesAccountDeployment @cognitiveServicesDeploymentParams

Gebruik

Een query uitvoeren op uw quotumgebruik in een bepaalde regio voor een specifiek abonnement:

Get-AzCognitiveServicesUsage -Location <location>

Voorbeeld

Get-AzCognitiveServicesUsage -Location eastus

Deze opdracht wordt uitgevoerd in de context van het momenteel actieve abonnement voor Azure PowerShell. Gebruik Set-AzContext dit om het actieve abonnement te wijzigen.

Zie de New-AzCognitiveServicesAccountDeployment voor meer informatie over Get-AzCognitiveServicesUsage en .

//
// This Azure Resource Manager template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
{
    "type": "Microsoft.CognitiveServices/accounts/deployments",
    "apiVersion": "2023-05-01",
    "name": "arm-je-aoai-test-resource/arm-je-std-deployment",    // Update reference to parent Azure OpenAI resource
    "dependsOn": [
        "[resourceId('Microsoft.CognitiveServices/accounts', 'arm-je-aoai-test-resource')]"  // Update reference to parent Azure OpenAI resource
    ],
    "sku": {
        "name": "Standard",      
        "capacity": 10            // The deployment will be created with a 10K TPM limit
    },
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-4o",
            "version": "2024-11-20"       
        }
    }
}

Zie de volledige referentiedocumentatie voor Azure Resource Manager voor meer informatie.

//
// This Bicep template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
resource arm_je_std_deployment 'Microsoft.CognitiveServices/accounts/deployments@2023-05-01' = {
  parent: arm_je_aoai_resource   // Replace this with a reference to the parent Azure OpenAI resource
  name: 'arm-je-std-deployment'
  sku: {
    name: 'Standard'            
    capacity: 10                 // The deployment will be created with a 10K TPM limit
  }
  properties: {
    model: {
      format: 'OpenAI'
      name: 'gpt-4o'
      version: '2024-11-20'          
    }
  }
}

Zie de volledige Bicep-referentiedocumentatie voor meer informatie.

# This Terraform template shows how to use the new schema introduced in the 2023-05-01 API version to 
# create deployments that set the model version and the TPM limits for standard deployments.
# 
# The new schema is not yet available in the AzureRM provider (target v4.0), so this template uses the AzAPI
# provider, which provides a Terraform-compatible interface to the underlying ARM structures.
# 
# For more details on these providers:
#     AzureRM: https://registry.terraform.io/providers/hashicorp/azurerm/latest/docs
#     AzAPI: https://registry.terraform.io/providers/azure/azapi/latest/docs
#

# 
terraform {
  required_providers {
    azapi   = { source  = "Azure/azapi" }
    azurerm = { source  = "hashicorp/azurerm" }
  }
}

provider "azapi" {
  # Insert auth info here as necessary
}

provider "azurerm" {
    # Insert auth info here as necessary  
    features {
    }
}

# 
# To create a complete example, AzureRM is used to create a new resource group and Azure OpenAI Resource
# 
resource "azurerm_resource_group" "TERRAFORM-AOAI-TEST-GROUP" {
  name     = "TERRAFORM-AOAI-TEST-GROUP"
  location = "canadaeast"
}

resource "azurerm_cognitive_account" "TERRAFORM-AOAI-TEST-ACCOUNT" {
  name                  = "terraform-aoai-test-account"
  location              = "canadaeast"
  resource_group_name   = azurerm_resource_group.TERRAFORM-AOAI-TEST-GROUP.name
  kind                  = "OpenAI"
  sku_name              = "S0"
  custom_subdomain_name = "terraform-test-account-"
  }


# 
# AzAPI is used to create the deployment so that the TPM limit and model versions can be set
#
resource "azapi_resource" "TERRAFORM-AOAI-STD-DEPLOYMENT" {
  type      = "Microsoft.CognitiveServices/accounts/deployments@2023-05-01"
  name      = "TERRAFORM-AOAI-STD-DEPLOYMENT"
  parent_id = azurerm_cognitive_account.TERRAFORM-AOAI-TEST-ACCOUNT.id

  body = jsonencode({
    sku = {                            # The sku object specifies the deployment type and limit in 2023-05-01
        name = "Standard",             
        capacity = 10                  # This deployment will be set with a 10K TPM limit
    },
    properties = {
        model = {
            format = "OpenAI",
            name = "gpt-4o",
            version = "2024-11-20"           
        }
    }
  })
}

Zie de volledige Terraform-referentiedocumentatie voor meer informatie.

Verwijderen van bron

Wanneer een poging om een Azure OpenAI-resource te verwijderen uit Azure Portal wordt uitgevoerd als er nog implementaties aanwezig zijn, wordt verwijdering geblokkeerd totdat de bijbehorende implementaties zijn verwijderd. Als u de implementaties eerst verwijdert, kunnen quotatoewijzingen correct worden vrijgemaakt, zodat ze kunnen worden gebruikt voor nieuwe implementaties.

Maar als u een resource verwijdert met behulp van de REST API of een andere programmatische methode, omzeilt u de noodzaak om eerst implementaties te verwijderen. Wanneer dit gebeurt, blijft de bijbehorende quotumtoewijzing gedurende 48 uur niet beschikbaar om toe te wijzen aan een nieuwe implementatie totdat de resource is verwijderd. Als u een onmiddellijke opschoning wilt activeren voor een verwijderde resource om het quotum vrij te maken, volgt u de instructies voor het opschonen van een verwijderde resource.

Volgende stappen

Raadpleeg het artikel quota & limieten om de standaardinstellingen voor quota voor Azure OpenAI te bekijken

Delen via

Quotum voor Azure OpenAI beheren in Azure AI Foundry-modellen

Vereiste voorwaarden

Inleiding tot quotum

Quotum toewijzen

Meer quotum aanvragen

Modelspecifieke instellingen

Quotum weergeven en aanvragen

Bestaande implementaties migreren

Inzicht in tarieflimieten

Aanbevolen werkwijzen voor snelheidslimieten

Implementatie automatiseren

Uitrol

Voorbeeld van aanvraag

Gebruik

Voorbeeld van aanvraag

Verwijderen van bron

Volgende stappen

Feedback

Aanvullende resources