Hej Daniel!
Tack för att du ställde en fråga på Microsoft Windows Forum!
Nåväl! Den rimliga förklaringen till din fråga är att genomströmning och bandbredd i Azure AI Foundry delas på prenumerationsnivå, inte på resursgrupps- eller individuell resursnivå. Detta indikerar att om du distribuerar flera modeller under samma prenumeration, så drar de från samma kvotpool, även om de tillhör olika resurser eller resursgrupper.
Om du kör två distributioner i samma prenumeration kommer de att konkurrera om genomströmning. För att undvika konkurrens kan du överväga separata prenumerationer för tunga arbetsbelastningar och provisionerad genomströmning för garanterad prestanda. Övervakar också användningen med Azure Monitor-metrik (Prompt Tokens, Completion Tokens) för att följa faktisk genomströmning.
Du kan läsa följande artiklar för vidare referens angående dina bekymmer.
- https://learn.microsoft.com/en-us/azure/foundry/openai/how-to/latency
- https://learn.microsoft.com/en-us/azure/foundry-classic/how-to/deploy-models-serverless?tabs=azure-direct&pivots=ai-foundry-portal
Hoppas informationen ovan är till hjälp! Om det är det. Känn dig fri att klicka på "Accepterad" för att gynna andra i gemenskapen som har samma problem.