Verwalten und Erhöhen der Kontingente für Ressourcen mit Azure KI Foundry

2025-05-20

Das Kontingent bietet die Flexibilität, die Zuordnung von Ratenbegrenzungen für die Bereitstellungen in Ihrem Abonnement aktiv zu verwalten. Dieser Artikel führt Sie durch den Prozess der Verwaltung des Kontingents für Ihre virtuellen Azure AI Foundry-Computer und Azure OpenAI in Foundry-Modellen.

In Azure werden Grenzwerte und Kontingente verwendet, um Budgetüberschreitungen aufgrund von Betrug zu vermeiden und Azure-Kapazitätseinschränkungen durchzusetzen. Es ist auch eine gute Möglichkeit, Kosten für Administratoren zu steuern. Berücksichtigen Sie diese Grenzwerte bei der Skalierung für Produktionsworkloads.

In diesem Artikel lernen Sie Folgendes:

Standardgrenzwerte für Azure-Ressourcen
Erstellen von Azure KI Foundry-Kontingenten auf Hubebene.
Anzeigen Ihrer Kontingente und Grenzwerte
Anfordern von Kontingent- und Grenzwerterhöhungen

In diesem Artikel lernen Sie Folgendes:

Anzeigen Ihrer Kontingente und Grenzwerte
Anfordern von Kontingent- und Grenzwerterhöhungen

Besondere Überlegungen

Kontingente werden auf jedes Abonnement in Ihrem Konto angewendet. Wenn Sie über mehrere Abonnements verfügen, müssen Sie eine Kontingenterhöhung für jedes Abonnement anfordern.

Ein Kontingent ist eine Guthabengrenze für Azure-Ressourcen, keine Kapazitätsgarantie. Wenn Sie einen umfangreichen Kapazitätsbedarf haben, wenden Sie sich an den Azure-Support, um Ihr Kontingent zu erhöhen.

Hinweis

Azure KI Foundry Compute verfügt über ein vom Kerncomputekontingent getrenntes Kontingent.

Die Standardgrenzwerte variieren je nach Kategorietyp, z. B. kostenlose Testversion, Standardbereitstellung und VM-Serie (z. B. Dv2, F und G).

Azure KI Foundry-Kontingent

Die folgenden Aktionen im Azure KI Foundry-Portal verbrauchen Kontingent:

Erstellen einer Compute-Instanz.
Erstellen eines Vektorindexes.
Bereitstellen offener Modelle aus dem Modellkatalog.

Azure KI Foundry Compute

Azure KI Foundry Compute verfügt über eine Standardkontingentgrenze für die Anzahl von Kernen und eindeutigen Computeressourcen, die pro Region in einem Abonnement zulässig sind.

Das Kontingent für die Anzahl der Kerne wird auf jede VM-Familie und die kumulative Gesamtzahl der Kerne aufgeteilt.
Das Kontingent für die Anzahl der eindeutigen Computeressourcen pro Region ist vom VM-Kernkontingent getrennt, da es nur für die verwalteten Computeressourcen gilt

Um die Grenzwerte für Compute zu erhöhen, können Sie in Azure KI Foundry eine Kontingenterhöhung anfordern.

Zu den verfügbaren Ressourcen gehören:

Dedizierte Kerne pro Region haben je nach Typ Ihres Abonnementangebots einen Standardgrenzwert von 24 bis 300. Sie können die Anzahl dedizierter Kerne pro Abonnement für jede VM-Familie erhöhen. Spezialisierte VM-Familien wie die Serien NCv2, NCv3 oder ND beginnen mit einem Standardwert von null Kernen. GPUs sind auch standardmäßig auf null Kerne festgelegt.
Die Gesamtberechnungsgrenze pro Region weist einen Standardgrenzwert von 500 pro Region innerhalb eines bestimmten Abonnements auf. Der Grenzwert kann bis zu einem Höchstwert von 2500 pro Region erhöht werden. Dieser Grenzwert gilt für Compute-Instanzen und verwaltete Onlineendpunktbereitstellungen. Eine Compute-Instanz wird in Bezug auf Kontingente als Cluster mit nur einem Knoten angesehen. Wenn Sie den Grenzwert erhöhen möchten, erstellen Sie eine Online-Kundensupportanfrage.

Geben Sie beim Öffnen der Supportanfrage zum Erhöhen des Berechnungslimits die folgenden Informationen an:

Wählen Sie unter Problemtyp die Option Technisch aus.
Wählen Sie das Abonnement aus, für das Sie das Kontingent erhöhen möchten.
Wählen Sie als Diensttyp die Option Machine Learning aus.
Wählen Sie die Ressource aus, für die Sie das Kontingent erhöhen möchten.
Geben Sie im Feld Zusammenfassung „Compute-Grenzwerte insgesamt erhöhen“ ein
Wählen Sie Computeinstanz als Problemtyp und Kontingent als Problemuntertyp aus.
Wählen Sie Weiteraus.
Geben Sie auf der Seite Zusätzliche Details die Abonnement-ID, die Region, den neuen Grenzwert (zwischen 500 und 2.500) und eine geschäftliche Begründung an, um die Grenzwerte für das Computelimit in der Region zu erhöhen.
Wählen Sie Erstellen aus, um das Supportanfrage-Ticket zu übermitteln.

Freigegebenes Azure KI Foundry-Kontingent

Azure KI Foundry bietet einen Pool mit gemeinsam genutztem Kontingent, das verschiedenen Benutzern in verschiedenen Regionen zur gleichzeitigen Verwendung zur Verfügung steht. Abhängig von der Verfügbarkeit können Benutzer vorübergehend über den freigegebenen Pool auf das Kontingent zugreifen und das Kontingent verwenden, um Tests für einen begrenzten Zeitraum durchzuführen. Die spezifische Dauer hängt vom Anwendungsfall ab. Wenn Sie vorübergehend ein Kontingent aus dem Kontingentpool verwenden, müssen Sie kein Supportticket mehr für eine kurzfristige Kontingenterhöhung erstellen oder warten, bis Ihre Kontingentanforderung genehmigt wurde, bevor Sie mit Ihrem Workload fortfahren können.

Die Verwendung des freigegebenen Kontingentpools steht für das Testen der Rückschlüsse für Llama-2-, Phi-, Nemotron-, Mistral-, Dolly- und Deci-DeciLM-Modelle aus dem Modellkatalog zur Verfügung. Sie sollten das freigegebene Kontingent nur zum Erstellen temporärer Testendpunkte und nicht für Produktionsendpunkte verwenden. Für Endpunkte in der Produktion sollten Sie ein dediziertes Kontingent anfordern. Die Abrechnung für das freigegebene Kontingent basiert auf der Nutzung.

Containerinstanzen

Weitere Informationen finden Sie unter Grenzwerte für Container Instances.

Lagerung

Für Azure Storage gilt ein Grenzwert von 250 Speicherkonten pro Region und Abonnement. Dieser Grenzwert umfasst sowohl Standard- als auch Storage Premium-Konten.

Anzeigen und Anfordern von Kontingenten im Azure KI Foundry-Portal

Verwenden Sie Kontingente, um die Zuweisung von Rechnerkapazitäten und das Modellkontingent zwischen mehreren hubspezifischen Projekten innerhalb desselben Abonnements zu verwalten.

Standardmäßig nutzen alle Hubs dasselbe Kontingent als Kontingent für VM-Familien auf Abonnementebene. Sie können jedoch ein maximales Kontingent für einzelne VM-Familien festlegen, um die Kostenkontrolle und Governance für Hubs in einem Abonnement genauer zu steuern. Mit Kontingenten für einzelne VM-Familien können Sie Kapazität freigeben und Ressourcenkonflikte vermeiden.

Verwenden von Kontingenten zum Verwalten der Modellkontingentzuordnung zwischen mehreren Foundry-Projekten im selben Abonnement

Wählen Sie im Azure AI Foundry-Portal das Verwaltungscenter unten im linken Menü aus.
Wählen Sie im linken Menü Kontingente aus.
In der Kontingentansicht sehen Sie das Kontingent für die Modelle in der ausgewählten Azure-Region. Um das Kontingent anzufordern, wählen Sie das Modell und dann das Anforderungskontingent aus.
- Verwenden Sie die Umschaltfläche Alle Kontingente anzeigen, um alle Kontingente oder nur das aktuell zugewiesene Kontingent anzuzeigen.
- Verwenden Sie die Dropdownliste Gruppieren nach, um die Liste nach Kontingenttyp, Region und Modell, Kontingenttyp, Modell und Region oder nicht (mit der Option Keine) zu gruppieren. Die Gruppierung Keine zeigt eine Liste der Modellbereitstellungen an.
- Erweitern Sie die Gruppierungen, um Informationen zu bestimmten Modellbereitstellungen anzuzeigen. Wählen Sie beim Anzeigen einer Modellbereitstellung das Bleistiftsymbol in der Spalte Kontingentzuordnung aus, um die Kontingentzuordnung für die Modellbereitstellung zu bearbeiten.
- Verwenden Sie die Diagramme am Seitenrand, um weitere Details zur Kontingentnutzung anzuzeigen. Die Diagramme sind interaktiv. Wenn Sie auf einen Abschnitt des Diagramms zeigen, werden weitere Informationen angezeigt, und wenn Sie das Diagramm auswählen, wird die Liste der Modelle gefiltert. Wenn Sie die Diagrammlegende auswählen, werden die im Diagramm angezeigten Daten gefiltert.
- Verwenden Sie den Link Azure OpenAI Provisioned, um Informationen zu bereitgestellten Modellen anzuzeigen, einschließlich eines Kapazitätsrechners.
Wenn Sie den Link VM-Kontingent auswählen, können Sie das Kontingent und die Nutzung für die VM-Familien in der ausgewählten Azure-Region anzeigen. Um das Kontingent anzufordern, wählen Sie die VM-Familie und dann "Anforderungskontingent" aus.

Tipp

Wenn der Link " VM-Kontingent " nicht angezeigt wird, haben Sie ein Foundry-Projektprojekt angezeigt, als Sie das Management Center ausgewählt haben. Verwenden Sie den Link "Alle Ressourcen ", und wählen Sie dann ein Projekt aus, in dem der Typ die übergeordnete Ressource enthält : Name (Hub),und wählen Sie dann "Kontingent " im linken Menü aus.

Wählen Sie im Azure AI Foundry-Portal das Verwaltungscenter unten im linken Menü aus.
Wählen Sie im linken Menü Kontingente aus.
In der Kontingentansicht sehen Sie das Kontingent für die Modelle in der ausgewählten Azure-Region. Um das Kontingent anzufordern, wählen Sie das Modell und dann das Anforderungskontingent aus.
- Verwenden Sie die Umschaltfläche Alle Kontingente anzeigen, um alle Kontingente oder nur das aktuell zugewiesene Kontingent anzuzeigen.
- Verwenden Sie die Dropdownliste Gruppieren nach, um die Liste nach Kontingenttyp, Region und Modell, Kontingenttyp, Modell und Region oder nicht (mit der Option Keine) zu gruppieren. Die Gruppierung Keine zeigt eine Liste der Modellbereitstellungen an.
- Erweitern Sie die Gruppierungen, um Informationen zu bestimmten Modellbereitstellungen anzuzeigen. Wählen Sie beim Anzeigen einer Modellbereitstellung das Bleistiftsymbol in der Spalte Kontingentzuordnung aus, um die Kontingentzuordnung für die Modellbereitstellung zu bearbeiten.
- Verwenden Sie die Diagramme am Seitenrand, um weitere Details zur Kontingentnutzung anzuzeigen. Die Diagramme sind interaktiv. Wenn Sie auf einen Abschnitt des Diagramms zeigen, werden weitere Informationen angezeigt, und wenn Sie das Diagramm auswählen, wird die Liste der Modelle gefiltert. Wenn Sie die Diagrammlegende auswählen, werden die im Diagramm angezeigten Daten gefiltert.
- Verwenden Sie den Link Azure OpenAI Provisioned, um Informationen zu bereitgestellten Modellen anzuzeigen, einschließlich eines Kapazitätsrechners.

Freigeben über