Dienstgrenzwerte für Azure KI-Suche

Maximale Grenzwerte für Speicher, Workloads und Mengen von Indizes und anderen Objekten hängen vom Preismodell Ihres Azure KI-Suche-Diensts ab.

Azure KI-Suche unterstützt zwei Preismodelle, die jeweils mit den zugehörigen Dienstebenen verbunden sind. Die von Ihnen ausgewählte Ebene wirkt sich auf die in dieser Anleitung beschriebenen Dienstgrenzwerte aus.

  • Dediziert: Feste Preise, gemessen in Sucheinheiten (SUs). Zu den Dienstebenenoptionen gehören: Basic, Standard (S1-S3, einschließlich S3 HD), Speicher optimiert (L1-L2) und eine kostenlose Ebene mit eingeschränkten Suchdienstfunktionen.
  • Serverless (Vorschau): Verbrauchsbasierte Preise, abgerechnet nach Compute-Einheiten pro Stunde (CU/hr) und pro-GB/Monat für indizierten Speicher. Die aktuelle Vorschauebene lautet: Serverless Developer. Grenzwerte werden durch Obergrenzen pro Index, Objektanzahlen pro Dienst und das Drosselungsverhalten bei Serverless definiert.

Wichtig

Der serverlose Entwicklertarif ist derzeit als Vorschau verfügbar. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Die Abrechnung für die Serverless Developer-Stufe ist während der Vorschau noch nicht aktiviert. Geschätzte Kosten für Ihre Nutzung sind im Azure Portal und telemetrie verfügbar, diese Nutzung wird jedoch während dieses anfänglichen Zeitraums nicht auf Ihrer Azure Rechnung angezeigt. Microsoft stellen mindestens 30 Tage vor Beginn der Abrechnung eine Benachrichtigung zur Verfügung. Die Verzögerung der Abrechnung während dieser Vorschau ist temporär. Serverless Developer ist eine kostenpflichtige Stufe, und Sie sind für alle Gebühren verantwortlich, die nach Beginn der Abrechnung anfallen.

Die Serverless Developer-Stufe unterstützt keine Migration zu oder von anderen Preisstufen, und einige Features, die auf anderen Ebenen verfügbar sind, werden während der öffentlichen Vorschau nicht unterstützt. Servicelimits, unterstützte Features und Preisdetails können sich vor der allgemeinen Verfügbarkeit ändern.

Die Vorschau ist derzeit nur im westlichen Zentralteil der USA, in der Schweiz Nord und in Japan Ost verfügbar.

Weitere Informationen finden Sie unter Auswählen eines Preismodells und einer Serviceebene.

Grenzwerte für Abonnements

Sie können mehrere abrechenbare Suchdienste (Basic und höher) bis zur maximalen Anzahl zulässiger Dienste in den einzelnen Ebenen pro Region erstellen. Sie können beispielsweise bis zu 16 Dienste auf der Stufe "Basic" und weitere 16 Dienste auf der S1-Ebene innerhalb desselben Abonnements und derselben Region erstellen. Anschließend können Sie zusätzliche 16 Basic-Dienste in einer anderen Region für insgesamt 32 Basisdienste im selben Abonnement erstellen. Weitere Informationen zu Serviceebenen finden Sie unter Auswählen eines Preismodells und einer Serviceebene.

Sie können maximale Dienstgrenzwerte nach Anfrage erhöhen. Senden Sie eine Supportanfrage, wenn Sie in einem Abonnement weitere Dienste benötigen.

Ressource Kostenlos 1 Basic S1 S2 S3 S3 HD L1 L2 Serverlose Entwickler
Maximale Dienste pro Region 1 16 16 8 6 6 6 6 5
Maximale Anzahl der Sucheinheiten (Search Units, SU)2 Nicht verfügbar 3 SU 36 SU 36 SU 36 SU 36 SU 36 SU 36 SU Nicht verfügbar

1 Sie können einen kostenlosen Suchdienst pro Azure-Abonnement nutzen. Der Free-Tarif basiert auf einer Infrastruktur, die gemeinsam mit anderen Kund*innen genutzt wird. Da die Hardware nicht dediziert ist, wird das Hochskalieren nicht unterstützt, und der Speicher ist auf 50 MB beschränkt. Ein kostenloser Suchdienst kann nach längerer Inaktivität gelöscht werden, um Platz für weitere Dienste zu schaffen.

2 Sucheinheiten (SU) sind Abrechnungseinheiten, die entweder als Replikat oder Partition zugeordnet werden. Sie benötigen beide. Weitere Informationen zu SU-Kombinationen finden Sie unter Schätzen und Verwalten der Kapazität eines Suchdiensts.

Diensteinschränkungen

Planen Sie im Dedizierten Preismodell die Kapazität, indem Sie Replikate mit Partitionen (Sucheinheiten) multiplizieren.

Ressource Kostenlos Basic S1 S2 S3 S3 HD L1 L2 Serverlose Entwickler
Partitionen Nicht verfügbar 3 1 12 12 12 3 12 12 Nicht verfügbar
Replikate Nicht verfügbar 3 12 12 12 12 12 12 Nicht verfügbar

1 Die Stufe "Einfach" unterstützt drei Partitionen und drei Replikate für insgesamt neun Sucheinheiten (SU) für neue Suchdienste , die nach dem 3. April 2024 erstellt wurden. Ältere Grundlegende Dienste sind auf eine Partition und drei Replikate beschränkt.

Ein Suchdienst unterliegt einem maximalen Speichergrenzwert (partitionsgröße multipliziert mit der Anzahl der Partitionen) oder einem harten Grenzwert für die maximale Anzahl von Indizes oder Indexern, je nachdem, welcher Grenzwert zuerst eintritt.

Vereinbarungen auf Dienstebene gelten für abrechnende Dienste, die zwei oder mehr Replikate für Abfrageworkloads oder drei oder mehr Replikate für Abfrage- und Indizierungsworkloads aufweisen. Die Anzahl der Partitionen wird für eine SLA nicht berücksichtigt. Weitere Informationen finden Sie unter Zuverlässigkeit in Azure KI Search.

Kostenlose Dienste verfügen nicht über feste Partitionen oder Replikate und geben Ressourcen für andere Abonnenten frei.

Partitionsspeicher (GB)

Die Speichergrenzwerte pro Dienst variieren je nach zwei Faktoren: Erstellungsdatum und Region des Diensts. Die meisten unterstützten Regionen bieten höhere Grenzwerte für neuere Dienste.

Die Tabelle zeigt den Verlauf von Speicherkontingenterhöhungen in GB im Laufe der Zeit. Ab April 2024 wurden in den in den Fußnoten aufgeführten Regionen Partitionen mit höherer Kapazität verfügbar. Wenn Sie über einen älteren Dienst in einer unterstützten Region verfügen, überprüfen Sie, ob Sie ihren Dienst aktualisieren können, um höhere Speichergrenzwerte zu erhalten.

Diensterstellungsdatum Basic S1 S2 S3/HD L1 L2 Serverlose Entwickler
Vor dem 3. April 2024 2 25 100 200 1\.024 2\.048 Nicht verfügbar
3. April 2024 bis 17. Mai 2024 1 15 160 512 1.024 1\.024 2\.048 Nicht verfügbar
Nach dem 17. Mai 2024 2 15 160 512 1\.024 2.048 4.096 Nicht verfügbar
Nach dem 10. Februar 2025 3 15 160 512 1\.024 2\.048 4.096 Nicht verfügbar

1 Höherer Kapazitätsspeicher für Basic, S1, S2 und S3 in diesen Regionen. Nord-, Mittel- und Südamerika: Brasilien, Süden, Kanada, Mitte, Kanada, Osten, USA, Osten, USA, Osten 2,USA, Mitte, USA, Norden-Mitte, USA, Süden-Mitte, USA, Westen, USA, Westen 2, USA, Westen 3, USA, Westen-Mitte. Europa: Frankreich, Mitte. Italien, Norden, Europa, Norden, Norwegen, Osten, Polen, Mitte, Schweiz, Norden, Schweden, Mitte, Vereinigtes Königreich, Süden, Vereinigtes Königreich, Westen. Naher Osten: VAE, Norden Afrika: Südafrika, Norden Asien-Pazifik: Australien Ost, Australien Südost, Zentralindien, Jio Indien West, Ostasien, Südostasien, Japan Ost, Japan West, Korea Mitte, Korea Süd.

2 Speicher mit höherer Kapazität für L1 und L2. Mehr Regionen bieten höhere Kapazität in den einzelnen abzurechnenden Dienstebenen. Amerika: Ost-US 2 EUAP. Europa: Deutschland, Norden, Deutschland, Westen-Mitte, Schweiz, Westen. Azure Government: Texas, Arizona, Virginia. Afrika: Südafrika, Norden. Asien-Pazifik: China, Norden 3, China, Osten 3.

3 Speicher mit höherer Kapazität ist in Westeuropa verfügbar.

Wichtig

Derzeit sind höhere Speichergrenzwerte in den folgenden Regionen nicht verfügbar, die den Grenzwerten vor dem 3. April unterliegen.

  • Israel Zentral
  • Katar Zentral
  • Spanien Zentral
  • Südindien

Indexgrenzwerte

Ressource Kostenlos Einfach 1 S1 S2 S3 S3 HD L1 L2 Serverlose Entwickler
Maximale Anzahl von Indizes 3 5 oder 15 50 200 200 1000 pro Partition oder 3000 pro Dienst 10 10 30
Maximale Anzahl der einfachen Felder pro Index 2 1.000 100 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Maximale Dimensionen pro Vektorfeld 4096 4096 4096 4096 4096 4096 4096 4096 4096
Maximale Anzahl der komplexen Sammlungen pro Index 40 40 40 40 40 40 40 40 40
Maximale Anzahl der Elemente in allen komplexen Sammlungen pro Dokument 3 3000 3000 3000 3000 3000 3000 3000 3000 3000
Maximale Tiefe der komplexen Felder 10 10 10 10 10 10 10 10 10
Maximale Anzahl von Vorschlägen pro Index 1 1 1 1 1 1 1 1 1
Maximale Bewertungsprofile pro Index 100 100 100 100 100 100 100 100 100
Maximale Semantikkonfigurationen pro Index 100 100 100 100 100 100 100 100 100
Maximale Anzahl von Funktionen pro Profil 8 8 8 8 8 8 8 8 8
Maximale Indexgröße 4 Nicht verfügbar Nicht verfügbar Nicht verfügbar 1,88 TB 2,34 TB* 100 GB Nicht verfügbar Nicht verfügbar 1 GB

1 Basic-Dienste, die vor Dezember 2017 erstellt wurden, haben niedrigere Grenzwerte (5 statt 15) für Indizes. Der Basic-Tarif ist der einzige Tarif mit einem unteren Grenzwert von 100 Feldern pro Index.

2 Die Obergrenze für Felder umfasst Felder der ersten Ebene und geschachtelte Unterfelder in einer komplexen Sammlung. Wenn ein Index beispielsweise 15 Felder enthält und über zwei komplexe Sammlungen mit jeweils fünf Unterfeldern verfügt, beträgt die Feldanzahl Ihres Index 25. Indizes mit sehr vielen Feldern können langsam sein. Beschränken Sie Felder und Attribute auf die benötigten Felder, und führen Sie Indizierungs- und Abfragetests durch, um sicherzustellen, dass die Leistung akzeptabel ist.

3 Es gilt Obergrenze für Elemente, da eine hohe Anzahl von diesen Elementen den für Ihren Index erforderlichen Speicherplatz erheblich erhöht. Ein Element einer komplexen Sammlung ist als Mitglied dieser Sammlung definiert. Nehmen Sie beispielsweise ein Hoteldokument mit einer komplexen Sammlung von Räumen an. Jeder Raum in der Rooms-Auflistung wird als Element betrachtet. Bei einer Indizierung kann die Indizierungs-Engine maximal 3,000 Elemente sicher im gesamten Dokument verarbeiten. Dieser Grenzwert wurde in api-version=2019-05-06 eingeführt und gilt nur für komplexe Sammlungen, nicht für Zeichenfolgensammlungen oder komplexe Felder.

4 Für die meisten Ebenen ist die maximale Indexgröße der gesamt verfügbare Speicher in Ihrem Suchdienst. Für S2-, S3- und S3 HD-Dienste mit mehreren Partitionen und daher mehr Speicher wird die maximale Größe eines einzelnen Indexes in der Tabelle bereitgestellt. Gilt für Suchdienste, die nach dem 3. April 2024 erstellt wurden. Indizes für Dienste, die mit dem Serverless-Modell (Vorschau) eingerichtet wurden, weisen eine festgelegte maximale Größe in der Tabelle auf.

Wenn Ihr Dienst in einem leistungsfähigeren Cluster bereitgestellt wird, kann es zu Abweichungen bei den maximalen Grenzwerten kommen. Die hier gezeigten Grenzwerte repräsentieren den gemeinsamen Nenner. Indizes, die gemäß den oben genannten Spezifikationen erstellt wurden, können über äquivalente Dienstebenen hinweg in jede Region portiert werden.

Dokumentgrenzwerte

Jeder Index unterstützt bis zur folgenden Anzahl von Dokumenten:

  • 24 Milliarden bei Basic, S1, S2 und S3
  • 2 Milliarden bei S3 HD
  • 288 Milliarden bei L1
  • 576 Milliarden bei L2

Jedes Dokument kann bis zu 16 MB groß sein. Der Grenzwert für die Dokumentgröße gilt tatsächlich für die Größe der Indizierungs-API-Anforderungsnutzlast, die 16 MB beträgt. Diese Nutzlast kann ein einzelnes Dokument oder eine Reihe von Dokumenten sein. Für einen Batch mit einem einzelnen Dokument beträgt die maximale Dokumentgröße 16 MB von JSON.

Die Größenbeschränkung für Dokumente gilt für die Indizierung im Pushmodus, bei der Dokumente an einen Suchdienst hochgeladen werden. Wenn Sie einen Indexer für Pullmodus-Indizierung verwenden, können die Quelldateien eine beliebige Dateigröße haben, vorbehaltlich der Indexerbeschränkungen. Für den Blob-Indexer sind die Dateigrößenbeschränkungen für höhere Ebenen größer. Beispielsweise beträgt die S1-Grenze 128 MB, der S2-Grenzwert beträgt 256 Mb usw.

Denken Sie beim Schätzen der Dokumentgröße daran, nur die Felder zu indizieren, die Ihren Suchszenarien Wert hinzufügen. Schließen Sie Quellfelder aus, die in den Abfragen, die Sie ausführen möchten, keinen Zweck haben.

Größenbeschränkungen für Vektorindizes

Wenn Sie Dokumente mit Vektorfeldern indizieren, erstellt Azure KI-Suche interne Vektorindizes unter Verwendung der von Ihnen angegebenen Algorithmusparameter.

Die Größe dieser Vektorindizes wird durch Folgendes eingeschränkt:

  • Der für die Vektorsuche reservierte Speicher für die Ebene Ihres Diensts (oder SKU) im Dedicated-Preismodell.
  • Speichergrenzwerte pro Index im Serverless-Preismodell.

Anleitungen zum Verwalten und Maximieren des Vektorspeichers finden Sie unter Vektorindexgröße und Einhalten von Grenzwerten.

Vektorgrenzwerte variieren je nach:

Höhere Vektorgrenzwerte ab April 2024 gelten für neue Suchdienste in Regionen mit der zusätzlichen Kapazität (dies sind die meisten). Wenn Sie über einen älteren Dienst in einer unterstützten Region verfügen, überprüfen Sie, ob Sie Ihren Dienst auf die höheren Vektorgrenzwerte aktualisieren können.

Im Serverless-Preismodell werden Vektorgrenzwerte pro Index und nicht pro Partition definiert.

  • Maximale Vektorindexgröße pro Index (Serverless): 300 MB
    • Diese Größe stellt ungefähr 30% des gesamten Indexspeichers dar, der mit dem Vektor-zu-Speicher-Verhältnis übereinstimmt, das in dedizierten Dienstebenen verwendet wird.
    • Diese Größe ist eine harte Grenze pro Index. Versuche, diesen Grenzwert während der Indizierung zu überschreiten, schlagen fehl.

Die folgende Tabelle zeigt den Verlauf von Vektorkontingenterhöhungen in GB im Laufe der Zeit. Das Kontingent ist pro Partition. Wenn Sie also einen neuen Standarddienst (S1) auf 6 Partitionen skalieren, beträgt das Gesamtvektorkontingent 35 multipliziert mit 6.

Diensterstellungsdatum Basic S1 S2 S3/HD L1 L2
Vor dem 1. Juli 20231 0,5 1 6 12 12 36
1. Juli 2023 bis 3. April 20242 1 3 12 36 12 36
3. April 2024 bis 17. Mai 20243 5 35 150 300 12 36
Nach dem 17. Mai 20244 5 35 150 300 150 300

1 Anfängliche Vektorgrenzwerte während der frühen Vorschau

2 Vektorgrenzwerte während des späteren Vorschauzeitraums. Drei Regionen verfügten nicht über die höheren Grenzwerte: „Deutschland, Westen-Mitte“, „Indien, Westen“ und „Katar, Mitte“.

3 Höheres Vektorkontingent basierend auf den größeren Partitionen für unterstützte Dienstebenen und Regionen.

4 Höheres Vektorkontingent für weitere Ebenen und Regionen basierend auf Aktualisierungen der Partitionsgrößen

Der Dienst erzwingt ein Vektorindex-Größenkontingent:

  • Gewidmet: Pro Partition in Ihrem Suchdienst
  • Serverlos: Pro Index

Dieses Kontingent ist ein hartes Limit, um sicherzustellen, dass Ihr Dienst fehlerfrei bleibt. Weitere Indizierungsversuche, sobald der Grenzwert überschritten wurde, führen zu einem Fehler. Sie können die Indizierung fortsetzen, nachdem Sie das verfügbare Kontingent freigegeben haben, indem Sie:

  • Löschen von Vektordokumenten
  • Reduzieren der Vektorgröße oder -dimensionalität
  • (Nur dediziert) Skalieren von Partitionen

Wichtig

Höhere Vektorgrenzwerte sind an größere Partitionsgrößen gebunden. Derzeit sind höhere Vektorgrenzwerte in den folgenden Regionen nicht verfügbar, die den Grenzwerten für Juli bis April unterliegen.

  • Israel Zentral
  • Katar Zentral
  • Spanien Zentral
  • Südindien

Indexergrenzwerte

Es gibt eine maximale Ausführungsdauer, um den Dienst als Ganzes ausgewogen und stabil zu gestalten, aber größere Datensätze benötigen möglicherweise mehr Indizierungszeit, als das Maximum zulässt. Wenn ein Indizierungsauftrag nicht innerhalb der maximal zulässigen Zeit abgeschlossen werden kann, versuchen Sie, den Auftrag nach einem Zeitplan auszuführen. Der Planer verfolgt den Indizierungsstatus. Wenn ein geplanter Indizierungsauftrag aus irgendeinem Grund unterbrochen wird, kann der Indexer den Auftrag bei der nächsten geplanten Ausführung an der Stelle fortsetzen, an der er unterbrochen wurde.

Hinweis

Im Serverless-Preismodell unterscheidet sich das Indexerverhalten von dedizierten Diensten. Die Kapazität wird nicht durch Replikate oder Partitionen definiert. Stattdessen bestimmen Objektgrenzwerte pro Dienst, Speicherobergrenzen pro Index und Drosselung auf Dienstebene die Grenzen für die Indizierung. Daher sind einige Grenzwerte, z. B. die maximale Ausführungszeit, keine festen Werte.

Ressource Kostenlos 1 Grundlegend 2 S1 S2 S3 S3 HD 3 L1 L2 Serverlose Entwickler
Maximale Anzahl von Indexern 3 5 oder 15 50 200 200 Nicht verfügbar 10 10 30
Maximale Datenquellen 3 5 oder 15 50 200 200 Nicht verfügbar 10 10 30 pro Dienst
Maximale Qualifikationsgruppen 4 3 5 oder 15 50 200 200 Nicht verfügbar 10 10 30
Maximale Indizierungslast pro Aufruf 10.000 Dokumente Lediglich durch die maximale Anzahl von Dokumenten begrenzt Lediglich durch die maximale Anzahl von Dokumenten begrenzt Lediglich durch die maximale Anzahl von Dokumenten begrenzt Lediglich durch die maximale Anzahl von Dokumenten begrenzt Nicht verfügbar Keine Begrenzung Keine Begrenzung Lediglich durch die maximale Anzahl von Dokumenten begrenzt
Minimaler Zeitplan 5 Min. 5 Min. 5 Min. 5 Min. 5 Min. 5 Min. 5 Min. 5 Min. 5 Min.
Maximale Laufzeit 5 1-3 oder 3-10 Min. 2 oder 24 Stunden 2 oder 24 Stunden 2 oder 24 Stunden 2 oder 24 Stunden Nicht verfügbar 2 oder 24 Stunden 2 oder 24 Stunden 2 Stunden
Blobindexer 7: maximale BLOB-Größe, MB 16 16 128 256 256 Nicht verfügbar 256 256 256
Blob-Indexer: Maximale Anzahl von Inhalten, die aus einem Blob 68 extrahiert wurden 256.000 512.000 4 Mil 8 Mil 16 Mil Nicht verfügbar 4 Mil 4 Mil 16 Mil

1 Die maximale Indexerausführungszeit bei Diensten im Free-Tarif beträgt drei Minuten für Blobquellen und eine Minute für alle anderen Datenquellen. Indizierungsaufruf erfolgt einmal alle 180 Sekunden. Für KI-Indizierung, die Foundry Tools aufruft, sind kostenlose Dienste auf 20 kostenlose Transaktionen pro Indexer pro Tag beschränkt, wobei eine Transaktion als Dokument definiert ist, das erfolgreich die Anreicherungspipeline durchläuft. (Tipp: Sie können einen Indexer zurücksetzen, um seine Anzahl zurückzusetzen.)

2 Basic-Dienste, die vor Dezember 2017 erstellt wurden, haben niedrigere Grenzwerte (5 statt 15) für Indexer, Datenquellen und Qualifikationsgruppen.

3 S3 HD Indexer-Unterstützung ist in der Vorschau, erfordert die 2025-11-01-preview REST-API-Version oder höher und wird von einem täglichen Kontingent auf Dienstebene von sechs Stunden kumulierter Indexerlaufzeit gesteuert, die für alle Indexer freigegeben ist. S3 HD-Indexer werden nur in der öffentlichen Ausführungsumgebung ausgeführt und unterstützen keine freigegebenen privaten Linkressourcen. Während der Vorschauphase eignet sich die Unterstützung für den S3 HD-Indexer am besten für kleine Workloads (mit einer Indexgröße von ca. 1 GB) ohne oder mit nur geringem Einsatz von Skillsets. Weitere Informationen finden Sie unter Indexerausführung auf Serverless und S3 HD.

4 Maximal 30 Fähigkeiten pro Qualifikationsgruppe.

5 Hinweis zur maximalen Dauer von zwei oder 24 Stunden für Indexer: Ein Maximum von zwei Stunden ist am gängigsten und sollte als Planungsgrundlage verwendet werden. Sie bezieht sich auf Indexer, die in der öffentlichen Umgebung ausgeführt werden, wodurch die rechenintensive Verarbeitung deaktiviert wird und mehr Ressourcen für Abfragen übrig bleiben. Der Begrenzung von 24 Stunden gilt, wenn Sie den Indexer so konfigurieren, dass er in einer privaten Umgebung ausgeführt wird, wobei nur die Infrastruktur verwendet wird, die Ihrem Suchdienst zugeordnet ist. Einige ältere Indexer können in der öffentlichen Umgebung nicht ausgeführt werden, und diese Indexer verfügen immer über einen 24-Stunden-Verarbeitungsbereich. Wenn bei Ihnen ungeplante Indexer vorhanden sind, die 24 Stunden lang kontinuierlich ausgeführt werden, können Sie davon ausgehen, dass diese Indexer nicht zur neueren Infrastruktur migriert werden konnten. Im Allgemeinen sollten Sie für Indizierungsaufträge, die nicht innerhalb von zwei Stunden abgeschlossen werden können, den Indexer auf einen 5-Minuten-Zeitplan setzen, damit der Indexer schnell dort weiterarbeiten kann, wo er aufgehört hat. Im kostenlosen Tarif ist die maximale Laufzeit von 3 bis 10 Minuten für Indexer vorgesehen, die über spezialisierte Fähigkeiten verfügen.

6 Die maximale Anzahl von Zeichen basiert auf Unicode-Codeeinheiten, insbesondere UTF-16.

7 Bei Verwendung des delimitedText Analysemodus für CSV-Dateien gilt eine Puffergröße von 10 MB pro Dateizeile.

8 Bei Verwendung des delimitedText Analysemodus für CSV-Dateien gilt das Limit "maximale extrahierte Inhaltsgröße" nicht.

Indexer haben über private Endpunkte, die über die API für freigegebene Private Link-Ressourcen verwaltet werden, Zugriff auf Azure-Ressourcen. In diesem Abschnitt werden die Grenzwerte für diese Funktion beschrieben.

Hinweis

Die Entwicklerebene des Serverless-Preismodells unterstützt keine gemeinsam genutzten privaten Links oder Netzwerksicherheitsperimeter (NSP) für Datenquellen. Private Endpunkte und IP-Firewallregeln für eine private Verbindung mit einem Serverless Developer Tier-Dienst werden unterstützt.

Ressource Kostenlos Basic S1 S2 S3 S3 HD L1 L2 Serverlose Entwickler
Unterstützung für den Indexer des privaten Endpunkts Nein Ja Ja Ja Ja Nein Ja Ja Nein
Unterstützung privater Endpunkte für Indexer mit einem Skillset 1 Nein Nein Ja Ja Ja Nein Ja Ja Nein
Unterstützung privater Endpunkte für Skillsets mit Einbettungs-Skill 2 Nein Ja Ja Ja Ja Nein Ja Ja Nein
Maximale Anzahl privater Endpunkte Nicht verfügbar 10 oder 30 100 400 400 Nicht verfügbar 20 20 Nicht verfügbar
Maximale unterschiedliche Ressourcentypen 3 Nicht verfügbar 4 7 15 15 Nicht verfügbar 4 4 Nicht verfügbar

1 Die KI-Anreicherung und die Bildanalyse sind rechenintensive Vorgänge, die unverhältnismäßig große Mengen der verfügbaren Verarbeitungskapazität verbrauchen. Aus diesem Grund sind private Verbindungen in niedrigeren Tarifen deaktiviert, um die Leistung und Stabilität des eigentlichen Suchdiensts zu gewährleisten. Bei grundlegenden Diensten werden private Verbindungen zu einer Microsoft Foundry-Ressource nicht unterstützt, um die Dienststabilität zu erhalten. Stellen Sie für die S1-Stufe sicher, dass der Dienst nach dem 3. April 2024 mit höheren Grenzwerten erstellt wurde. Indexer mit mehr als zwei Azure OpenAI Embedding- oder Azure Vision multimodalen Einbettungsfähigkeiten dürfen nicht in privater Umgebung ausgeführt werden, und private Verbindungen stehen nicht zur Verfügung.

2 Private Verbindungen zu einem Einbettungsmodell werden für die nach dem 3. April 2024 erstellten Basis- und S1-Hochkapazitäts-Suchdienste mit den höheren Grenzwerten für die Speicher- und Rechenverarbeitung unterstützt.

3 Die Anzahl der unterschiedlichen Ressourcentypen wird als die Anzahl der eindeutigen groupId-Werte berechnet, die in allen freigegebenen Ressourcen für private Verbindungen für einen bestimmten Dienst verwendet werden. Der Status der jeweiligen Ressource spielt dabei keine Rolle.

Synonymgrenzwerte

Die maximale Anzahl von Synonymzuordnungen variiert je nach Ebene. Jede Regel kann bis zu 20 Erweiterungen haben, wobei eine Erweiterung ein gleichwertiger Begriff ist. Beispielsweise zählt die Zuordnung zu "Katze", "Kätzchen", "Feline" und "felis" (die Gattung für Katzen) als drei Erweiterungen.

Ressource Kostenlos Basic S1 S2 S3 S3 HD L1 L2 Serverlose Entwickler
Maximale Synonymzuordnungen 3 3 5 10 20 20 10 10 20 je Dienst
Maximale Anzahl von Regeln pro Karte 5.000 20000 20000 20000 20000 20000 20000 20000 20000

Indexaliasgrenzwerte

Die maximale Anzahl von Index-Aliassen variiert je nach Tier und Datum der Diensterstellung. Wenn der Dienst nach Oktober 2022 erstellt wurde, ist die maximale Anzahl von Aliassen auf allen Ebenen doppelt so hoch wie die maximal zulässige Anzahl von Indizes. Wenn der Dienst vor Oktober 2022 erstellt wurde, ist der Grenzwert die Anzahl der zulässigen Indizes.

Hinweis

Die Entwicklerebene des Serverless-Modells unterstützt keine Indexalias.

Diensterstellungsdatum Kostenlos Basic S1 S2 S3 S3 HD L1 L2 Serverlose Entwickler
Vor Oktober 2022 3 5 oder 15 1 50 200 200 1000 pro Partition oder 3000 pro Dienst 10 10 Nicht verfügbar
Nach Oktober 2022 6 30 100 400 400 2000 pro Partition oder 6000 pro Dienst 20 20 Nicht verfügbar

1 Basic-Dienste, die vor Dezember 2017 erstellt wurden, haben niedrigere Grenzwerte (5 statt 15) für Indizes.

Agentische Abrufgrenzwerte

Eine Wissensdatenbank spezifiziert eine oder mehrere Wissensquellen und einen Abrufbegründungsaufwand, der das Niveau der LLM-Verarbeitung (Large Language Model) für agenturgetriebenen Abruf steuert. Die Beschränkungen variieren je nach Preisstufe, API-Version und Stufe des Reasoning-Aufwands.

Ressource Kostenlos Basic S1 S2 S3 S3 HD L1 L2 Serverlose Entwickler
Maximale Wissensquellen pro Dienst 3 5 oder 15 1 50 200 200 0 10 10 30
Maximale Wissensdatenbanken pro Dienst 3 5 oder 15 1 50 200 200 0 10 10 30
Maximale Wissensquellen pro Wissensbasis (minimal) 2 3 5 oder 10 1 10 10 10 0 10 10 10
Maximale Wissensquellen pro Wissensbasis (low) 3 3 3 3 3 0 3 3 3
Maximale Wissensquellen pro Wissensbasis (medium) 3 5 5 5 5 0 5 5 5

1 Grundlegende Dienste, die vor dem 3. April 2024 erstellt wurden, haben niedrigere Grenzwerte (5) für Wissensquellen und Wissensbasen.

Wissensquellen pro Wissensbasis

Wissensbasierte Grenzwerte für Wissensquellen hängen von der API-Version ab, die zum Erstellen oder Aktualisieren der Wissensbasis verwendet wird. Im 2026-05-01-preview unterliegen alle Abruf-Reasoning-Vorgänge denselben Beschränkungen der Wissensquelle. Frühere Vorschau-API-Versionen haben niedrigere Grenzwerte für low und medium Denkaufwand.

API-Version Rückgewinnungsanstrengung für Schlussfolgerungen Kostenlos Basic S1 S2 S3 S3 HD L1 L2
2026-05-01-preview minimal, lowmedium 3 5 oder 10 1 10 10 10 0 10 10
2026-05-01-preview, 2025-08-01-preview minimal 2 3 5 oder 10 1 10 10 10 0 10 10
2026-05-01-preview, 2025-08-01-preview low 3 3 3 3 3 0 3 3
2026-05-01-preview, 2025-08-01-preview medium 3 5 5 5 5 0 5 5

2 In früheren Vorschau-API-Versionen unterstützt der minimal Reasoning-Aufwand mehr Wissensquellen als low oder medium, weil die LLM-basierte Abfrageplanung umgangen wird.

Datengrenzwerte (KI-Anreicherung)

Datengrenzwerte gelten für eine KI-Anreicherungspipeline , die Aufrufe an Azure Language in Foundry Tools zur Entitätserkennung, Entitätsverknüpfung, Schlüsselausdruckextraktion, Stimmungsanalyse, Spracherkennung und Erkennung von persönlichen Informationen sendet.

Die maximale Größe eines Datensatzes beträgt 50.000 Zeichen, gemessen von String.Length. Wenn Sie Ihre Daten teilen müssen, bevor Sie sie an das Stimmungsanalysetool senden, verwenden Sie den Skill „Text teilen“.

Diese Grenzwerte gelten sowohl für dedizierte als auch für serverlose Preismodelle.

Drosselungslimits

Einschränkungsgrenzwerte tragen dazu bei, die Dienststabilität zu gewährleisten, indem die Rate der API-Anforderungen gesteuert wird.

Im dedizierten Preismodell basiert die Drosselung auf Sucheinheiten (Replikate × Partitionen).

Im Serverless-Preismodell basiert die Drosselung nicht auf Sucheinheiten. Stattdessen steuern Grenzwerte für den Betrieb auf Dienstebene und das Allgemeine Verbrauchsverhalten den Durchsatz. Nutzungs- und Dienstbeschränkungen verwalten Kapazität und nicht die Konfiguration von Replikaten und Partitionen.

Operation Dediziert (pro Sucheinheit) Serverless (pro Dienst oder pro Index)
Indizes auflisten (GET /indexes) 3 Anfragen/Sek./SU 3 Anfragen/s
Index abrufen (GET /indexes/{index}) 10 Anforderungen/Sek./SU 10 Anfragen/s
Index erstellen (POST /indexes) 12 Anfragen/Min/SU 12 Anfragen/Minute
Index erstellen oder aktualisieren (PUT /indexes/{index}) 6 Anforderungen/Sek./SU 6 Anfragen/s
Index löschen (DELETE /indexes/{index}) 12 Anfragen/Min/SU 12 Anfragen/Minute
Dienststatistiken (GET /servicestats) 4 Anforderungen/s/SU 4 Anfragen/s
Suchabfragen (POST /indexes/{index}/docs/search) Variiert je nach SU-Anzahl und der Abfragekomplexität 50 Abfragen/Sekunde (aggregierte Lesedrosselung pro Index)
Indexdokumente (POST /indexes/{index}/docs/index) Variiert je nach SU-Anzahl und Indizierungsworkload 5 Anfragen pro Sekunde pro Index
Vorschlagen (POST /indexes/{index}/docs/suggest) Variiert je nach SU-Anzahl Nicht explizit definiert
AutoVervollständigen (POST /indexes/{index}/docs/autovervollständigen) Variiert je nach SU-Anzahl Nicht explizit definiert

Grenzwerte für die semantische Rangfolgereinschränkung

Der semantische Sortierer verwendet ein Warteschlangensystem, um gleichzeitig eingehende Anforderungen zu verwalten. Dieses System ermöglicht es Suchdiensten, die höchste Anzahl von Abfragen pro Sekunde zu erhalten. Wenn der Grenzwert für gleichzeitige Anforderungen erreicht wird, platziert das System zusätzliche Anforderungen in einer Warteschlange. Wenn die Warteschlange voll ist, lehnt das System weitere Anforderungen ab und muss erneut überprüft werden.

Die Gesamtanzahl der Semantikbewertungsabfragen pro Sekunde variiert je nach den folgenden Faktoren:

  • Die Ebene des Suchdiensts. Sowohl die Warteschlangenkapazität als auch die Grenzwerte für gleichzeitig eingehende Anforderungen variieren je nach Ebene.
  • Anzahl der Sucheinheiten im Suchdienst. Die einfachste Möglichkeit, die maximale Anzahl gleichzeitiger semantischer Rangiererabfragen zu erhöhen, besteht darin, Ihrem Suchdienst weitere Sucheinheiten hinzuzufügen.
  • Die verfügbare Gesamtkapazität des semantischen Sortierers in der Region.
  • Die Zeitspanne, die zum Bearbeiten einer Abfrage mit dem semantischen Sortierer benötigt wird. Diese Zeit variiert je nach Auslastung des Suchdiensts.

In der folgenden Tabelle werden die Grenzwerte für die semantische Rangfolgereinschränkung nach Ebene beschrieben, vorbehaltlich der verfügbaren Kapazität in der Region. Sie können sich an den Microsoft-Support wenden, um eine Erhöhung des Grenzwerts anzufordern.

Ressource Basic S1 S2 S3 S3 HD L1 L2 Serverlose Entwickler
Maximale Anzahl gleichzeitiger Anforderungen (pro Sucheinheit) 2 3 4 4 4 4 4 4 (pro Dienst)
Maximale Anforderungswarteschlangengröße (pro Sucheinheit) 4 6 8 8 8 8 8 8 (pro Dienst)

API-Anforderungsgrenzwerte

Grenzwerte für Abfragen sind vorhanden, da ungebundene Abfragen Ihren Suchdienst destabilisieren können. In der Regel werden solche Abfragen programmgesteuert erstellt. Wenn Ihre Anwendung Suchabfragen programmgesteuert generiert, entwerfen Sie sie so, dass keine Abfragen mit ungebundener Größe generiert werden.

Grenzwerte für Nutzlasten bestehen aus ähnlichen Gründen und stellen die Stabilität Ihres Suchdiensts sicher. Der Grenzwert gilt für die gesamte Anforderung einschließlich aller Komponenten. Wenn die Anforderung beispielsweise mehrere Dokumente oder Befehle stapelt, muss die gesamte Anforderung in den unterstützten Grenzwert passen.

Wenn Sie einen unterstützten Grenzwert überschreiten müssen, testen Sie Ihre Workload , damit Sie wissen, was Sie erwarten müssen.

Sofern nicht angegeben, gelten die folgenden API-Anforderungen für alle programmierbaren Schnittstellen, einschließlich der Azure-SDKs.

Allgemein:

  • Unterstützte maximale Nutzlastgrenze beträgt 16 MB für die Indizierung und Abfrageanforderung über REST-API und SDKs.
  • Maximale Länge der 8-KB-URL (gilt nur für REST-APIs).

Indizierungs-APIs:

  • Unterstützt maximal 1.000 Dokumente pro Batch an Indexuploads, Zusammenführungen oder Löschungen.
  • Jede Anforderung unterstützt zwischen 1 und 32.000 Indizierungsaktionen.

Abfrage-APIs:

  • Maximal 10 Felder in einer Vektorabfrage
  • Maximal 32 Felder in $orderby Klausel.
  • Maximal 100.000 Zeichen in einer Suchklausel.
  • Die maximale Anzahl von Klauseln in der Suche beträgt 3.000.
  • Maximale Grenzwerte für Platzhalter und Abfragen zum regulären Ausdruck, wie durch Lucene erzwungen. Sie begrenzt die Anzahl der Muster, Variationen oder Übereinstimmungen mit 1.000 Instanzen. Dieser Grenzwert ist vorhanden, um Motorüberladungen zu vermeiden.

Suchbegriffe:

  • Die maximale unterstützte Suchbegriffgröße ist 32.766 Byte (32 KB minus 2 Bytes) von UTF-8-codiertem Text. Gilt für die Stichwortsuche und die Texteigenschaft der Vektorsuche.
  • Die maximale unterstützte Suchbegriffgröße beträgt 1.000 Zeichen für die Präfixsuche und die Suche von regulären Ausdrücken.

API-Antwortengrenzwerte

  • Jede Seite mit Suchergebnissen gibt bis zu 1.000 Dokumente zurück.
  • Jede Suggest-API-Anforderung gibt bis zu 100 Vorschläge zurück.

Die Suchmaschine gibt standardmäßig 50 Ergebnisse zurück, Sie können diesen Parameter jedoch außer Kraft setzen bis zum maximalen Grenzwert.

API-Schlüsselgrenzwerte

Verwenden Sie API-Schlüssel für die Dienstauthentifizierung. Zwei Arten von API-Schlüsseln sind vorhanden. Administratorschlüssel, die Sie im Anforderungsheader angeben, bieten vollständigen Lese-/Schreibzugriff auf den Dienst. Abfrageschlüssel, die Sie für die URL angeben, sind schreibgeschützt und in der Regel an Clientanwendungen verteilt.

  • Jeder Dienst unterstützt bis zu zwei Administratorschlüssel.
  • Jeder Dienst unterstützt bis zu 50 Abfrageschlüssel.