Limites de service de la recherche Azure AI

Les limites maximales du stockage, des charges de travail et des quantités d’index et autres objets varient selon que vous créez le service de recherche Azure AI avec les niveaux tarifaires Gratuit, Essentiel , Standard ou À stockage optimisé.

  • Gratuit est un service partagé multi-locataire qui est fourni avec votre abonnement Azure.

  • De base : fournit des ressources de calcul dédiées pour des charges de travail de production à plus petite échelle, mais partage une infrastructure réseau avec d’autres locataires.

  • Le niveau Standard est exécuté sur des ordinateurs dédiés, avec une capacité de stockage et de traitement beaucoup plus grande, et ce, à chaque niveau. Le niveau Standard apparaît dans quatre catégories : S1, S2, S3 et S3 HD. La catégorie S3 HD (S3 High Density) est conçue pour des utilisateurs multiples et de grandes quantités de petits index (3 000 index par service). S3 HD ne fournit pas la fonctionnalité d’indexeur et l’ingestion des données doit tirer parti des API qui envoient (push) les données de la source vers l’index.

  • Stockage optimisé s’exécute sur des ordinateurs dédiés avec plus de stockage total, de bande passante de stockage et de mémoire que Standard. Ce niveau cible les index volumineux et à variation lente. À stockage optimisé est disponible en deux niveaux : L1 et L2.

Limites d’abonnement

Vous pouvez créer plusieurs services de recherche facturables (De base ou supérieur), jusqu’au nombre maximal de services autorisés à chaque niveau. Ainsi, vous pouvez créer jusqu’à 16 services au niveau de base et 16 autres au niveau S1 au sein du même abonnement. Si vous souhaitez obtenir plus d’informations sur les niveaux, voir Choisir un niveau (ou SKU) pour Recherche Azure AI.

Les limites de service maximales peuvent être augmentées sur demande. S’il vous faut davantage de services dans le même abonnement, remplissez une demande de support.

Ressource Gratuit1 De base S1 S2 S3 S3 HD L1 L2
Nombre de services maximum 1 16 16 8 6 6 6 6
Nombre maximal d’unités de recherche (SU)2 S/O 3 unités de recherche 36 unités de recherche 36 unités de recherche 36 unités de recherche 36 unités de recherche 36 unités de recherche 36 unités de recherche

1 Vous pouvez avoir un service de recherche gratuit par abonnement Azure. Le niveau gratuit est basé sur l’infrastructure partagée avec d’autres clients. Étant donné que le matériel n’est pas dédié, le scale-up n’est pas pris en charge et le stockage est limité à 50 Mo.

2 Les unités de recherche sont des unités de facturation, allouées en tant que réplicas ou partitions. Vous devez disposer des deux. Pour obtenir plus d’informations sur les combinaisons de SU, consultez Estimer et gérer la capacité d’un service de recherche.

Limites du service

Les limites de service de recherche pour le stockage, les partitions et les réplicas varient selon la date de création du service, avec des limites plus élevées pour les services plus récents dans les régions prises en charge.

Un service de recherche est soumis à une limite maximale de stockage (taille de partition multipliée par le nombre de partitions) ou à une limite inconditionnelle sur le nombre maximal d’index ou les indexeurs, selon ce qui se produit en premier.

Les contrats de niveau de service (SLA) s’appliquent aux services facturables ayant deux réplicas ou plus pour les charges de travail de requête, ou trois réplicas ou plus pour les charges de travail de requête et d’indexation. Le nombre de partitions n’est pas pris en compte dans les SLA. Pour plus d’informations, consultez Fiabilité dans la Recherche Azure AI.

Les services gratuits n’ont pas de réplicas ou de partitions fixes et partagent des ressources avec d’autres abonnés.

Avant le 3 avril 2024

Ressource Gratuit De base S1 S2 S3 S3 HD L1 L2
Contrat de niveau de service (SLA) Non Oui Oui Oui Oui Oui Oui Oui
Stockage (taille de partition) 50 Mo 2 Go 25 Go 100 Go 200 Go 200 Go 1 To 2 To
Partitions S/O 1 12 12 12 3 12 12
Réplicas N/A 3 12 12 12 12 12 12

Après le 3 avril 2024

Pour les nouveaux services créés après le 3 avril 2024 :

  • Le niveau Essentiel peut avoir jusqu’à trois partitions et trois réplicas, et un total de neuf unités de recherche (SU).
  • Les niveaux Essentiel, S1, S2 et S3 ont plus de stockage par partition, allant de 3 à 7 fois plus selon le niveau.
  • Votre nouveau service de recherche doit se trouver dans une région prise en charge afin d’obtenir la capacité supplémentaire pour le niveau Essentiel et d’autres niveaux.

Actuellement, il n’y a aucune mise à niveau sur place. Vous devez créer un service de recherche pour bénéficier du stockage supplémentaire.

Ressource Gratuit De base S1 S2 S3 S3 HD L1 L2
Contrat de niveau de service (SLA) Non Oui Oui Oui Oui Oui Oui Oui
Stockage (taille de partition) 50 Mo 15 Go 160 Go 350 Go 700 Go 700 Go 1 To 2 To
Partitions S/O 3 12 12 12 3 12 12
Réplicas N/A 3 12 12 12 12 12 12

Régions prises en charge avec des limites de stockage plus élevées

Les services créés après le 3 avril 2024 doivent se trouver dans l’une des régions suivantes pour obtenir le stockage supplémentaire. Regardez les annonces dans Nouveautés de la Recherche Azure AI pour l’expansion vers d’autres régions.

Pays ou région Régions fournissant une capacité supplémentaire par partition
États-Unis USA Est, USA Est 2, USA Centre, USA Centre Nord, USA Centre Sud, USA Ouest, USA Ouest 2, USA Ouest 3, USA Centre-Ouest
Royaume-Uni Royaume-Uni Sud, Royaume-Uni Ouest ​
Émirats arabes unis Émirats arabes unis Nord​
Suisse Suisse Ouest
Suède Suède Centre​
Pologne Pologne Centre​
Norvège Norvège Est​
Corée Corée Centre, Corée Sud ​
Japon Japon Est, Japon Ouest
Italie Italie Nord​
Inde Inde Centre, Jio Inde Ouest ​
France France Centre​
Europe Europe Nord​
Canada Canada Centre, Canada Est​
Brésil Brésil Sud​
Asie-Pacifique Asie Est, Asie Sud-Est ​
Australie Australie Est, Australie Sud-Est​

Limites d’index

Ressource Gratuit De base1 S1 S2 S3 S3 HD L1 L2
Nombre maximal d’index 3 5 ou 15 50 200 200 1 000 par partition ou 3 000 par service 10 10
Nombre maximal de champs simples par index 2 1000 100 1000 1 000 1 000 1 000 1 000 1 000
Dimensions maximales par champ vectoriel 3 072 3 072 3 072 3 072 3 072 3 072 3 072 3 072
Champs de collection complexe par index 40 40 40 40 40 40 40 40
Nombre maximal d’éléments dans toutes les collections complexes par document 3 3000 3000 3000 3000 3000 3000 3000 3000
Profondeur maximale des champs complexes 10 10 10 10 10 10 10 10
Nombre maximal de générateurs de suggestions par index 1 1 1 1 1 1 1 1
Nombre maximal de profils de score par index 100 100 100 100 100 100 100 100
Nombre maximal de fonctions par profil 8 8 8 8 8 8 8 8
Taille maximale d’index 4 N/A N/A N/A 1.92 To 2,4 To 100 Go N/A N/A

1 Les services de base créés avant décembre 2017 présentent des limites inférieures (5 au lieu de 15) sur les index. Le niveau essentiel est le seul niveau soumis à une limite inférieure de 100 champs par index.

2 La limite supérieure des champs comprend à la fois les champs de premier niveau et les sous-champs imbriqués dans une collection complexe. Par exemple, si un index contient 15 champs et a deux collections complexes avec cinq sous-champs chacun, le nombre de champs de votre index est de 25. Les index avec une collection de champs de très grande taille peuvent être lents. Limitez les champs et attributs aux seuls dont vous avez besoin et exécutez l’indexation et le test de requête pour garantir que les performances sont acceptables.

3 Il existe une limite supérieure pour les éléments, car un grand nombre d’entre eux augmente considérablement la capacité de stockage nécessaire à votre index. Un élément d’une collection complexe est défini en tant que membre de cette collection. Supposons, par exemple, qu’un document Hôtel avec une collection complexe de Chambres, chaque espace de la collection Chambres est considéré comme un élément. Pendant l’indexation, le moteur d’indexation peut traiter en toute sécurité un maximum de 3 000 éléments dans l’ensemble du document. Cette limite a été introduite dans api-version=2019-05-06 et s’applique uniquement aux collections complexes, et non aux collections de chaînes ou aux champs complexes.

4 Sur la plupart des niveaux, la taille maximale d’index est l’ensemble du stockage disponible sur votre service de recherche. Pour S2, S3 et S3 HD, la taille maximale d’un index est le nombre fourni dans le tableau. S’applique aux services de recherche créés après le 3 avril 2024.

Il se peut que vous trouviez une variation des limites maximales pour le niveau de base si votre service est approvisionné sur un cluster plus puissant. Les limites ici représentent le dénominateur commun. Les index intégrés aux spécifications ci-dessus sont portables sur les niveaux de service équivalents dans n’importe quelle région.

Limites du document

Vous pouvez avoir environ 24 milliards de documents par index sur les services de recherche De base, S1, S2, S3, L1 et L2. Pour S3 HD, la limite est de deux milliards de documents par index. Chaque instance d’une collection complexe compte comme un document distinct dans le cadre de ces limites.

Limites de taille de document par appel d’API

La taille maximale d’un document lors de l’appel d’une API d’index est d’environ 16 mégaoctets.

La taille du document est en fait une limite de taille du corps de requête de l’API d’index. Étant donné que vous pouvez transmettre en une seule fois un lot de plusieurs documents à l’API d’index, la limite de taille dépend en réalité du nombre de documents présents dans le lot. Pour un lot comprenant un seul document, la taille maximale du document est de 16 Mo de JSON.

Lorsque vous estimez la taille du document, n’oubliez pas de prendre en compte uniquement les champs qui peuvent être utilisés par un service de recherche. Toutes les données binaires ou d’image des documents sources doivent être omises de vos calculs.

Limite de la taille de l’index vectoriel

Quand vous indexez des documents avec des champs vectoriels, la Recherche Azure AI construit des index vectoriels internes en utilisant les paramètres d’algorithme que vous avez spécifiés. La taille de ces index vectoriels est limitée par la mémoire réservée à la recherche vectorielle pour le niveau de votre service (ou SKU).

Le service applique un quota de taille d’index vectoriel pour chaque partition dans votre service de recherche. Chaque partition supplémentaire que vous ajoutez à votre service augmente le quota de taille d’index vectoriel disponible. Ce quota est une limite stricte pour garantir que votre service reste en bon état, ce qui signifie que d’autres tentatives d’indexation une fois la limite dépassée entraînent un échec. Vous pouvez reprendre l’indexation une fois que vous avez libéré le quota disponible en supprimant certains documents vectoriels ou en effectuant un scale-up dans des partitions.

Le tableau décrit le quota de taille d’index vectoriel par partition entre les niveaux de service. Pour le contexte, cela inclut les éléments suivants :

  • Limites de stockage de partition pour chaque niveau, répété ici pour le contexte.
  • Quantité de chaque partition (en Go) disponible pour les index vectoriels (créés lorsque vous ajoutez des champs vectoriels à un index).
  • Nombre approximatif d’incorporations (valeurs à virgule flottante) par partition.

Utilisez le Service de statistiques GET pour récupérer votre quota de taille d’index vectoriel ou passer en revue la page Index ou Onglet d’utilisation dans le portail Azure.

Les limites vectorielles varient selon la date et le niveau de création de service. Pour vérifier l’âge de votre service de recherche et en savoir plus sur les index vectoriels, consultez Taille de l’index de vecteurs et restez sous les limites.

Limites vectorielles sur les services créés après le 3 avril 2024 dans les régions prises en charge

Les limites vectorielles les plus élevées sont disponibles sur les services de recherche créés après le 3 avril 2024 dans une région prise en charge.

Niveau Types de quotas de stockage (Go) Quota de vecteurs par partition (Go) Environ. floats par partition (en supposant une surcharge de 15 %)
De base 15 5 1,100 millions
S1 160 35 8,200 millions
S2 350 100 23,500 millions
S3 700 200 47,000 millions
L1 1 000 12 2 800 millions
L2 2 000 36 8 400 millions

Notez que les limites L1 et L2 ne changent pas dans le lancement du 3 avril.

Limites vectorielles sur les services créés entre le 1er juillet 2023 et le 3 avril 2024

Les limites suivantes s’appliquaient aux nouveaux services créés entre le 1er juillet et le 3 avril 2024, à l’exception des régions suivantes, qui ont les limites d’origine antérieures au 1er juillet 2023 :

  • Allemagne Centre-Ouest
  • Ouest de l’Inde
  • Qatar Centre

Toutes les autres régions ont ces limites :

Niveau Types de quotas de stockage (Go) Quota de vecteurs par partition (Go) Environ. floats par partition (en supposant une surcharge de 15 %)
De base 2 1 235 millions
S1 25 3 700 millions
S2 100 12 2 800 millions
S3 200 36 8 400 millions
L1 1 000 12 2 800 millions
L2 2 000 36 8 400 millions

Limites vectorielles sur les services créés avant le 1er juillet 2023

Niveau Types de quotas de stockage (Go) Quota de vecteurs par partition (Go) Environ. floats par partition (en supposant une surcharge de 15 %)
De base 2 0,5 115 millions
S1 25 1 235 millions
S2 100 6 1 400 millions
S3 200 12 2 800 millions
L1 1 000 12 2 800 millions
L2 2 000 36 8 400 millions

Limites de l’indexeur

Les durées d’exécution maximales existent pour fournir équilibre et stabilité au service dans son ensemble, mais l’indexation des jeux de données volumineux peut prendre plus de temps que la valeur maximale ne le permet. Si un travail d’indexation ne peut pas être terminé dans le délai maximal autorisé, essayez de l’exécuter selon une planification. Le planificateur effectue le suivi de l’état de l’indexation. Si une tâche d’indexation planifiée est interrompue pour une raison quelconque, à la prochaine exécution planifiée, l’indexeur peut repartir de là où il s’était arrêté.

Ressource Gratuit1 De base2 S1 S2 S3 S3 HD3 L1 L2
Nombre maximal d’indexeurs 3 5 ou 15 50 200 200 N/A 10 10
Nombre maximal de sources de données 3 5 ou 15 50 200 200 N/A 10 10
Compétences maximales 4 3 5 ou 15 50 200 200 N/A 10 10
Charge d’indexation maximale par appel 10 000 documents Limité uniquement par le nombre maximal de documents Limité uniquement par le nombre maximal de documents Limité uniquement par le nombre maximal de documents Limité uniquement par le nombre maximal de documents N/A Aucune limite Aucune limite
Planification minimale 5 minutes 5 minutes 5 minutes 5 minutes 5 minutes 5 minutes 5 minutes 5 minutes
Durée maximale d’exécution 5 1-3 minutes 2 ou 24 heures 2 ou 24 heures 2 ou 24 heures 2 ou 24 heures N/A 2 ou 24 heures 2 ou 24 heures
Durée d’exécution maximale pour les indexeurs avec un ensemble de compétences 6 3-10 minutes 2 heures 2 heures 2 heures 2 heures N/A 2 heures 2 heures
Indexeur d’objets blob : taille maximale des objets blob, en Mo 16 16 128 256 256 N/A 256 256
Indexeur d’objets blob : nombre maximal de caractères du contenu extrait d’un objet blob 32 000 64 000 4 millions 8 millions 16 millions N/A 4 millions 4 millions

1 Les services du niveau Gratuit bénéficient d’une durée d’exécution maximale de l’indexeur de 3 minutes pour les sources d’objets blob, et de 1 minute pour toutes les autres sources de données. L’appel de l’indexeur se fait une fois toutes les 180 secondes. Pour l’indexation de l’intelligence artificielle qui appelle les Azure AI services, les services gratuits sont limités à 20 transactions gratuites par indexeur par jour, une transaction étant définie comme un document qui traverse le pipeline d’enrichissement (conseil : vous pouvez réinitialiser un indexeur pour le remettre à zéro).

2 Les services de base créés avant décembre 2017 présentent des limites inférieures (5 au lieu de 15) sur les index, les sources de données et les ensembles de compétences.

3 Les services S3 HD ne comprennent pas de prise en charge de l’indexeur.

4 Nombre maximal de 30 compétences par group de compétences.

5 Concernant la durée maximale de 2 ou 24 heures pour les indexeurs : une durée maximale de 2 heures est la plus courante et c’est ce que vous devez planifier. La limite de 24 heures provient d’une implémentation d’indexeur plus ancienne. Si vous avez des indexeurs non planifiés qui s’exécutent en continu pendant 24 heures, c’est parce que ces indexeurs n’ont pas pu être migrés vers l’infrastructure plus récente. En règle générale, pour les travaux d’indexation qui ne peuvent pas se terminer dans les deux heures, placez l’indexeur dans une planification de 2 heures. Lorsque le premier intervalle de 2 heures est terminé, l’indexeur reprend là où il s’est arrêté lors du démarrage du prochain intervalle de 2 heures.

6 L’exécution d’un ensemble de compétences, et l’analyse d’images en particulier, sont gourmands en ressources et consomment une quantité disproportionnée de la puissance de traitement disponible. Le temps d’exécution de ces charges de travail a été réduit pour permettre l’exécution d’autres tâches dans la file d’attente.

Remarque

Comme indiqué dans les limites des index, les indexeurs appliquent également la limite supérieure de 3 000 éléments à toutes les collections complexes par document, en commençant par la dernière version de l’API en disponibilité générale qui prend en charge les types complexes (2019-05-06). Cela signifie que si vous avez créé votre indexeur avec une version antérieure de l’API, vous ne serez pas soumis à cette limite. Pour préserver une compatibilité maximale, un indexeur qui a été créé avec une version antérieure de l’API, puis mis à jour avec une version de l’API 2019-05-06 ou ultérieure, sera toujours exclu des limites. Les clients doivent être conscients de l’impact négatif dans le cas de collections complexes très grandes (comme indiqué précédemment) et nous recommandons vivement de créer les indexeurs avec la dernière version de l’API en disponibilité générale.

Les indexeurs peuvent accéder aux autres ressources Azure via des points de terminaison privés gérés via l’API de ressource de liaison privée partagée. Cette section décrit les limites associées à cette fonctionnalité.

Ressource Gratuit De base S1 S2 S3 S3 HD L1 L2
Prise en charge de l’indexeur de point de terminaison privé Non Oui Oui Oui Oui No Oui Oui
Prise en charge du point de terminaison privé pour les indexeurs avec un ensemble de compétences1 No Non Non Oui Oui No Oui Oui
Nombre maximal de points de terminaison privés N/A 10 ou 30 100 400 400 N/A 20 20
Nombre maximal de types de ressources distincts2 N/A 4 7 15 15 N/A 4 4

1 L’enrichissement par IA et l’analyse d’images sont gourmands en ressources et consomment une quantité disproportionnée de la puissance de traitement disponible. Pour cette raison, les connexions privées sont désactivées sur les niveaux inférieurs pour garantir les performances et la stabilité du service de recherche lui-même.

2 Le nombre de types de ressources distincts est calculé comme le nombre de valeurs de groupId uniques utilisées dans toutes les ressources de liaison privée partagée pour un service de recherche donné, quel que soit l’état de la ressource.

Limites des synonymes

Le nombre maximal de cartes de synonymes varie en fonction du niveau. Chaque règle peut avoir jusqu’à 20 expansions, où une expansion est un terme equivalvent. Par exemple, pour le mot « chat », l’association avec « minou », « félin » et « felis » (le genre des chats) est comptée comme 3 expansions.

Ressource Gratuit De base S1 S2 S3 S3-HD L1 L2
Mappages de synonymes maximum 3 3 5 10 20 20 10 10
Nombre maximal de règles par mappage 5 000 20000 20000 20000 20000 20000 20000 20000

Limites des alias d’index

Le nombre maximal d’alias d’index varie en fonction du niveau. Dans tous les niveaux, le nombre maximal d’alias correspond au double du nombre maximal d’index autorisés.

Ressource Gratuit De base S1 S2 S3 S3-HD L1 L2
Nombre maximal d’alias 6 10 ou 30 100 400 400 2 000 par partition ou 6 000 par service 20 20

Limites de données (enrichissement de l’IA)

Un pipeline d’enrichissement par IA faisant appel à une ressource Azure AI Language pour la reconnaissance d’entités, la liaison d’entités, l’extraction de phrases clés, l’analyse des sentiments, la détection de la langue et la détection d’informations personnelles est soumis à des limites de données. La taille maximale d’un enregistrement doit être de 50 000 caractères telle que mesurée par String.Length. Si vous avez besoin de découper vos données avant de les envoyer à l’Analyseur des sentiments, utilisez la compétence Fractionnement du texte.

Limitations

Les demandes d’API sont limitées dès que le système s’approche de la capacité maximale. Le comportement de la limitation varie en fonction des API. Les API de requête (recherche/suggestion/saisie semi-automatique) et les API d’indexation se limitent dynamiquement en fonction de la charge du service. Les API d’index et les API d’opérations de service ont des limites de taux de requêtes statiques.

Limites de taux de requêtes statiques pour les opérations liées à un index :

  • Lister les index (GET /indexes) : 3 par seconde par unité de recherche
  • Obtenir les index (GET /indexes/myindex) : 10 par seconde par unité de recherche
  • Créer un index (POST /index) : 12 par minute par unité de recherche
  • Créer ou mettre à jour les index (PUT /indexes/myindex) : 6 par seconde par unité de recherche
  • Supprimer un index (DELETE /indexes/myindex) : 12 par minute par unité de recherche

Limites de taux de requêtes statiques pour les opérations liées à un service :

  • Statistiques de service (GET /servicestats) : 4 par seconde par unité de recherche

Limites de requête d’API

  • 16 Mo maximum par requête 1
  • La longueur maximale d’une URL est de 8 Ko
  • 1 000 documents maximum par lot de charges, de fusions ou de suppressions d’index
  • 32 champs maximum dans la clause $orderby
  • Maximum 100 000 caractères dans une clause de recherche
  • Le nombre maximal de clauses dans search (les expressions séparées par and ou or) est de 1024
  • La taille maximale des termes de recherche du texte encodé en UTF-8 est de 32 766 octets (32 Ko moins 2 octets)
  • La taille maximale des termes de recherche est de 1 000 caractères pour la recherche de préfixe et la recherche par expression régulière
  • La recherche par caractères génériques et la recherche par expression régulière sont limitées à un maximum de 1000 états lorsqu’elles sont traitées par Lucene.

1 Dans la recherche Azure AI, le corps d’une requête est soumis à une limite supérieure de 16 Mo. Cela signifie qu’une limite pratique est imposée au contenu des champs individuels ou des collections qui ne font pas l’objet de limites théoriques (pour plus d’informations sur la composition et les restrictions des champs, consultez Types de données pris en charge).

Il existe des limites sur la taille et la composition de la requête, car les requêtes non liées peuvent déstabiliser votre service de recherche. En général, de telles requêtes sont créées par programmation. Si votre application génère des requêtes de recherche par programmation, nous vous recommandons de la concevoir de façon à ce qu’elle ne génère pas des requêtes d’une taille illimitée.

Limites de réponse d’API

  • 1 000 documents maximum retournés par page de résultats de recherche
  • 100 suggestions maximum retournées par requête d’API de suggestion

Limites de clés API

Les clés API sont utilisées pour l’authentification de service. Il existe deux types de clé API. Les clés d’administration sont spécifiées dans l’en-tête de la demande et accordent un accès complet en lecture et en écriture au service. Les clés de requête sont en lecture seule, spécifiées dans l’URL et généralement distribuées aux applications clientes.

  • 2 clés administrateur maximum par service
  • 50 clés de requête maximum par service