Limites de serviço no Azure AI Search

Os limites máximos de armazenamento, cargas de trabalho e quantidades de índices e outros objetos dependem de você provisionar o Azure AI Search nos tipos de preço Gratuito, Básico, Standard ou Otimizado para Armazenamento.

  • Free é um serviço compartilhado multilocatário que vem com sua assinatura do Azure.

  • Básico fornece recursos de computação dedicados para cargas de trabalho de produção em menor escala, mas compartilha alguma infraestrutura de rede com outros locatários.

  • Standard é executado em computadores dedicados, com mais capacidade de armazenamento e processamento em cada nível. Standard vem em quatro níveis: S1, S2, S3 e S3 HD. O S3 HD (S3 de Alta Densidade) foi projetado para multilocatário e grandes quantidades de índices pequenos (três mil índices por serviço). O S3 HD não fornece o recurso de indexador e a ingestão de dados deve utilizar APIs que enviam dados da origem para o índice.

  • Otimizado para Armazenamento é executado em computadores dedicados com mais armazenamento total, largura de banda de armazenamento e memória do o Standard. Essa camada tem como alvo índices grandes e de alteração lenta. Otimizado para Armazenamento vem em dois níveis: L1 e L2.

Limites de assinatura

Você pode criar vários serviços de pesquisa faturáveis (Básico e superior), até o número máximo de serviços permitidos em cada nível. Por exemplo, você pode criar até 16 serviços na camada Básico e outros 16 serviços na camada S1 dentro da mesma assinatura. Para obter mais informações sobre as camadas, confira Escolher uma camada (ou um SKU) para a Pesquisa de IA do Azure.

Os limites de serviço máximos podem ser aumentados mediante solicitação. Se você precisar de mais serviços na mesma assinatura, apresente uma solicitação de suporte.

Recurso Gratuito 1 Basic S1 S2 S3 S3 HD L1 L2
Quantidade máxima de serviços 1 16 16 8 6 6 6 6
Máximo de unidades de pesquisa (SU)2 N/D 3 SU 36 SU 36 SU 36 SU 36 SU 36 SU 36 SU

1 Você pode ter um serviço de pesquisa gratuito por assinatura do Azure. A camada gratuita baseia-se na infraestrutura compartilhada com outros clientes. Como o hardware não é dedicado, não há suporte para escalar verticalmente e o armazenamento é limitado a 50 MB.

2 As SU (unidades de pesquisa) são unidades faturáveis, alocadas como uma réplica ou como uma partição. Você precisa das duas. Para saber mais sobre combinações de SU, consulte Estimar e gerenciar a capacidade de um serviço de pesquisa.

Limites de serviço

Um serviço de pesquisa está sujeito a um limite máximo de armazenamento (tamanho de partição multiplicado pelo número de partições) ou por um limite rígido no número máximo de índices ou indexadores, o que ocorrer primeiro.

Recurso Gratuito 1 Básico 1 S1 S2 S3 S3 HD L1 L2
SLA (Contrato de Nível de Serviço)2 Não Sim Sim Sim Sim Sim Sim Yes
Armazenamento (tamanho da partição) 50 MB 3 2 GB 25 GB 100 GB 200 GB 200 GB 1 TB 2 TB
Partições N/D 1 12 12 12 3 12 12
Réplicas N/D 3 12 12 12 12 12 12

1 Básico tem uma partição fixa. Você pode especificar até mais três unidades de pesquisa para adicionar réplicas para maiores volumes de consulta e alta disponibilidade.

2 Os contratos de nível de serviço se aplicam a serviços faturáveis com recursos dedicados. Serviços gratuitos e recursos de visualização não têm SLA. Para serviços faturáveis, os SLAs entram em vigor quando você fornece redundância suficiente para seu serviço. Duas ou mais réplicas são necessárias para os SLAs de consulta (leitura). Três ou mais réplicas são necessárias para consulta e indexação dos SLAs (leitura-gravação). O número de partições não é uma consideração de SLA. Consulte Confiabilidade na Pesquisa de IA do Azure para saber mais sobre réplicas e alta disponibilidade.

3 Serviços gratuitos não têm uma partição dedicada. O limite de armazenamento de 50 MB refere-se ao espaço máximo alocado a um serviço de pesquisa gratuito na infraestrutura compartilhada com outros clientes.

Limites de índice

Recurso Gratuita Básico 1 S1 S2 S3 S3 HD L1 L2
Índices máximos 3 5 ou 15 50 200 200 1000 por partição ou 3000 por serviço 10 10
Máximo de campos simples por índice 2 1000 100 1000 1000 1000 1000 1000 1000
Máximo de coleções complexas por índice 40 40 40 40 40 40 40 40
Máximo de elementos em todas as coletas complexas por documento3 3000 3000 3000 3000 3000 3000 3000 3000
Profundidade máxima de campos complexos 10 10 10 10 10 10 10 10
Número máximo de encarregados da sugestão por índice 1 1 1 1 1 1 1 1
Número máximo de perfis de pontuação por índice 100 100 100 100 100 100 100 100
Máximo de funções por perfil 8 8 8 8 8 8 8 8

1 Serviços básicos criados antes de dezembro de 2017 têm menos limites (5 em vez de 15) em índices. A camada tipo Básico é a única SKU com um limite inferior de 100 campos por índice.

2 o limite superior dos campos inclui campos de primeiro nível e subcampos aninhados em uma coleção complexa. Por exemplo, se um índice contiver 15 campos e duas coleções complexas com 25 subcampos cada, a contagem de campos dele será 25. Índices com uma coleção muito grande de campos podem ser lentos. Limite os campos e atributos apenas aos que você precisa e execute a indexação e o teste de consulta para verificar se o desempenho está aceitável.

3 há um limite superior para os elementos porque ter um grande número deles aumenta significativamente o armazenamento necessário para o índice. Um elemento de uma coleção complexa é definido como um membro dessa coleção. Por exemplo, suponha um documento de Hotel com uma coleção complexa de salas, cada sala na coleção de salas é considerada um elemento. Durante a indexação, o mecanismo de indexação pode processar com segurança um máximo de 3000 elementos no documento como um todo. Esse limite foi introduzido em api-version=2019-05-06 e se aplica apenas a coleções complexas e não a coleções de cadeias de caracteres ou a campos complexos.

É possível encontrar alguma variação em limites máximos se o serviço for provisionado em um cluster mais potente. Os limites aqui representam o denominador comum. Os índices criados nas especificações acima são portáteis em todas as camadas de serviço equivalentes em qualquer região.

Limites do documento

Você pode ter aproximadamente 24 bilhões de documentos por índice nos serviços de pesquisa Basic, S1, S2, S3, L1 e L2. Para o S3 HD, o limite é de 2 bilhões de documentos por índice. Cada instância de uma coleção complexa conta como um documento separado em termos desses limites.

Limites de tamanho do documento por chamada à API

O tamanho máximo do documento ao chamar uma API de Índice é de aproximadamente 16 megabytes.

O tamanho do documento é realmente um limite ao tamanho do corpo da solicitação de API do Índice. Como é possível transmitir um lote de vários documentos para a API de Índice de uma só vez, o limite de tamanho depende praticamente de quantos documentos estão no lote. Para um lote com um único documento, o tamanho máximo de documentos é de 16 MB de JSON.

Lembre-se de considerar apenas os campos que podem ser consumidos por um serviço de pesquisa ao estimar o tamanho do documento. Todos os dados binários ou de imagem em documentos de origem devem ser omitidos dos seus cálculos.

Limites de tamanho do índice de vetor

Quando você indexa documentos com campos vetoriais, a Pesquisa de IA do Azure constrói índices vetoriais internos usando os parâmetros de algoritmo fornecidos. O tamanho desses índices de vetor é restrito pela memória reservada para busca em vetores para sua camada de serviço (ou SKU).

O serviço impõe uma cota de tamanho de índice de vetor para cada partição em seu serviço de pesquisa. Cada partição extra aumenta a cota de tamanho do índice de vetor disponível. Essa cota é um limite rígido para garantir que seu serviço permaneça íntegro, o que significa que novas tentativas de indexação depois que o limite é excedido resultarão em falha. Você pode retomar a indexação depois de liberar a cota disponível excluindo alguns documentos de vetor ou escalando verticalmente em partições.

A tabela descreve a cota de tamanho do índice de vetor por partição entre as camadas de serviço (ou SKU). Para contextualizar, inclui:

  • Limites de armazenamento de partição para cada camada, repetidos aqui para contexto.
  • Quantidade de cada partição (em GB) disponível para índices vetoriais (criados quando você adiciona campos vetoriais a um índice).
  • Número aproximado de incorporações (valores de ponto flutuante) por partição.

Use a API Get Service Statistics (GET/servicestats) para recuperar a cota de tamanho do índice de vetor. Consulte nossa documentação sobre o tamanho do índice de vetor para obter mais detalhes.

Serviços criados antes de 1º de julho de 2023

Camada Cota de armazenamento (GB) Cota de vetor por partição (GB) Floats aproximados por partição (supondo sobrecarga de 15%)
Basic 2 0.5 115 milhões
S1 25 1 235 milhões
S2 100 6 1.400 milhões
S3 200 12 2.800 milhões
L1 1.000 12 2.800 milhões
L2 2\.000 36 8.400 milhões

Serviços criados após 1º de julho de 2023 em regiões com suporte

O Azure AI Search está distribuindo limites maiores de tamanho de índice de vetor em todo o mundo para novos serviços de pesquisa, mas a equipe está criando a capacidade de infraestrutura em determinadas regiões. Infelizmente, os serviços existentes não podem ser migrados para os novos limites.

As seguintes regiões não dão suporte a limites maiores:

  • Centro-Oeste da Alemanha
  • Índia Ocidental
  • Catar Central
Camada Cota de armazenamento (GB) Cota de vetor por partição (GB) Floats aproximados por partição (supondo sobrecarga de 15%)
Basic 2 1 235 milhões
S1 25 3 700 milhões
S2 100 12 2.800 milhões
S3 200 36 8.400 milhões
L1 1.000 12 2.800 milhões
L2 2\.000 36 8.400 milhões

Limites de indexador

Os tempos máximos de execução existem para fornecer balanceamento e estabilidade ao serviço como um todo, mas conjuntos de dados maiores podem precisar de mais tempo de indexação do que o máximo permitido. Se não for possível concluir um trabalho de indexação no tempo máximo permitido, tente executá-lo de maneira agendada. O agendador mantém monitora o status da indexação. Se um trabalho de indexação agendado for interrompido por algum motivo, o indexador poderá continuar de onde parou na próxima execução agendada.

Recurso Gratuito 1 Básico: 2 S1 S2 S3 S3 HD 3 L1 L2
Indexadores máximos 3 5 ou 15 50 200 200 N/D 10 10
Máximo de fontes de dados 3 5 ou 15 50 200 200 N/D 10 10
Número máximo de conjuntos de habilidades 4 3 5 ou 15 50 200 200 N/D 10 10
Carga de indexação máxima por invocação 10.000 documentos Limitado apenas pelo máximo de documentos Limitado apenas pelo máximo de documentos Limitado apenas pelo máximo de documentos Limitado apenas pelo máximo de documentos N/D Sem limite Sem limite
Agendamento mínimo 5 minutos 5 minutos 5 minutos 5 minutos 5 minutos 5 minutos 5 minutos 5 minutos
Tempo de execução máximo 5 1 a 3 minutos 2 ou 24 horas 2 ou 24 horas 2 ou 24 horas 2 ou 24 horas N/D 2 ou 24 horas 2 ou 24 horas
Tempo máximo de execução para indexadores com um conjunto de habilidades 6 3 a 10 minutos 2 horas 2 horas 2 horas 2 horas N/D 2 horas 2 horas
Indexador de blob: tamanho máximo do blob, MB 16 16 128 256 256 N/D 256 256
Indexador de blob: número máximo de caracteres de conteúdo extraído de um blob 32.000 64.000 4 milhões 8 milhões 16 milhões N/D 4 milhões 4 milhões

1 Os serviços gratuitos têm um tempo máximo de execução do indexador de 3 minutos para fontes do blob e 1 minuto para todas as outras fontes de dados. A invocação do indexador é uma vez a cada 180 segundos. Para a indexação de IA que chama o Azure AI Search, os serviços gratuitos são limitados a 20 transações gratuitas por indexador por dia, em que uma transação é definida como um documento que passa com sucesso pelo pipeline de enriquecimento (dica: é possível redefinir um indexador para redefinir sua contagem).

2 Serviços básicos criados antes de dezembro de 2017 têm menos limites (5 em vez de 15) em indexadores, fontes de dados e conjuntos de habilidades.

3 Os serviços do S3 HD não incluem suporte ao indexador.

4 Máximo de 30 habilidades por conjunto de habilidades.

5 Em relação à duração máxima de 2 ou 24 horas para indexadores: um máximo de 2 horas é o mais comum e é o que você deve planejar. O limite de 24 horas é de uma implementação de indexador mais antiga. Se você tiver indexadores não agendados que são executados continuamente por 24 horas, é porque esses indexadores não puderam ser migrados para a infraestrutura mais recente. Como regra geral, para indexar trabalhos que não podem ser concluídos dentro de duas horas, coloque o indexador em um cronograma de 2 horas. Quando o primeiro intervalo de 2 horas estiver concluído, o indexador retomará de onde parou ao iniciar o próximo intervalo de 2 horas.

6 A execução de habilidades, e a análise de imagens em particular, são computacionalmente intensivas e consomem quantidades desproporcionais de poder de processamento disponível. O tempo de execução dessas cargas de trabalho foi reduzido para dar a outros trabalhos na fila mais oportunidades de execução.

Observação

Conforme indicado nos Limites de índice, os indexadores também impõem o limite superior de 3.000 elementos em todas as coleções complexas por documento, começando com a versão mais recente da API GA que dá suporte a tipos complexos (2019-05-06) em diante. Isso significa que, se criou o indexador com uma versão de API anterior, você não estará sujeito a esse limite. Para preservar a compatibilidade máxima, um indexador criado com uma versão de API anterior e, em seguida, atualizado com uma versão de API 2019-05-06 ou posterior, será excluído dos limites mesmo assim. Os clientes devem estar cientes do impacto adverso de ter coleções complexas muito grandes (como declarado anteriormente) e é altamente recomendável criar novos indexadores com a versão mais recente da API GA.

Os indexadores podem acessar outros recursos do Azure por meio de pontos de extremidade privados gerenciados por meio da API de recurso de link privado compartilhado. Esta seção descreve os limites associados a esse recurso.

Recurso Grátis Basic S1 S2 S3 S3 HD L1 L2
Suporte do indexador de ponto de extremidade privado Não Sim Sim Sim Sim Não Sim Yes
Suporte de ponto de extremidade privado para indexadores com o Skills1 Não No No Sim Sim Não Sim Yes
Gerenciar pontos de extremidade privados N/D 10 ou 30 100 400 400 N/D 20 20
Tipos de recursos distintos máximos2 N/D 4 7 15 15 N/D 4 4

1 O enriquecimento da IA e a análise de imagem fazem uso intensivo dos recursos de computação e consomem uma quantidade desproporcional da capacidade de processamento disponível. Por esse motivo, as conexões privadas são desabilitadas em camadas inferiores para garantir o desempenho e a estabilidade do próprio serviço de pesquisa.

2 o número de tipos de recursos distintos é calculado como o número de groupId valores exclusivos usados em todos os recursos de link privado compartilhado para um determinado serviço de pesquisa, independentemente do status do recurso.

Limites de sinônimos

O número máximo de mapas de sinônimos varia por camada. Cada regra pode ter até 20 expansões, onde uma expansão é um termo equivalente. Por exemplo, dado “gato”, associação com “gatinho”, “felino” e “felis” (o gênero para gatos) contaria como 3 expansões.

Recurso Grátis Basic S1 S2 S3 S3-HD L1 L2
Mapas máximos de sinônimos 3 3 5 10 20 20 10 10
Número máximo de regras por mapa 5000 20000 20000 20000 20000 20000 20000 20000

Limites de aliases de índice

O número máximo de aliases de índice varia de acordo com a camada. Em todas as camadas, o número máximo de aliases é o dobro em relação ao número máximo de índices permitidos.

Recurso Grátis Basic S1 S2 S3 S3-HD L1 L2
Número máximo de aliases 6 10 ou 30 100 400 400 2000 por partição ou 6000 por serviço 20 20

Limites de dados (enriquecimento de IA)

Um pipeline de enriquecimento de IA que faz chamadas para um recurso de Linguagem de IA do Azure para reconhecimento de entidade, vinculação de entidade, extração de frase-chave, análise de sentimento, detecção de idioma e detecção de informações pessoais está sujeito a limites de dados. O tamanho máximo de um registro deve ser de 50.000 caracteres conforme medido por String.Length. Se você precisar interromper o backup de seus dados antes de enviá-lo ao analisador de sentimentos, use a habilidade Text Split.

Barreiras de limitação

Solicitações de API são limitadas à medida que o sistema se aproxima da capacidade máxima. A limitação se comporta de maneira diferente para diferentes APIs. As APIs de consulta (pesquisa/sugestão/preenchimento automático) e as APIs de indexação são limitadas dinamicamente com base na carga no serviço. As APIs de índice e a API de operações de serviço têm limites de taxa de solicitação estáticos.

Limites de solicitação de taxa estática para operações relacionadas a um índice:

  • Listar índices (GET/índices): 3 por segundo por unidade de pesquisa
  • Obter índice (GET /índices/meuíndice): 10 por segundo por unidade de pesquisa
  • Criar índice (POST/índices): 12 por minuto por unidade de pesquisa
  • Criar ou atualizar índice (PUT /índices/meuíndice): seis por segundo por unidade de pesquisa
  • Excluir índice (DELETE /índices/meuíndice): 12 por minuto por unidade de pesquisa

Limites de solicitação de taxa estática para operações relacionadas a um serviço:

  • Estatísticas de serviço (GET/servicestats): 4 por segundo por unidade de pesquisa

Limites de solicitação de API

  • Máximo de 16 MB por solicitação 1
  • Comprimento máximo da URL de 8 KB
  • Máximo de 1000 documentos por lote de carregamentos, mesclagens ou exclusões de índice
  • Máximo de 32 campos na cláusula $orderby
  • Máximo de 100.000 caracteres em uma cláusula de pesquisa
  • O número máximo de cláusulas em search (expressões separadas por AND ou OR) é de 1.024
  • O tamanho máximo do termo de pesquisa é de 32.766 bytes (32 KB menos 2 bytes) de texto codificado em UTF-8
  • O tamanho máximo do termo de pesquisa é de 1.000 caracteres para pesquisa de prefixo e pesquisa regex
  • A pesquisa por curingas e a pesquisa de expressão regular são limitadas a um máximo de 1.000 estados quando processadas pelo Lucene.

1 No Azure AI Search, o corpo de uma solicitação está sujeito a um limite superior de 16 MB, que impõe um limite prático no conteúdo de campos individuais ou coleções que, caso contrário, não são limitadas por limites teóricos (confira Tipos de dados com suporte para saber mais sobre restrições e composição de campos).

Os limites no tamanho e na composição da consulta existem, porque as consultas desassociadas podem desestabilizar o serviço de pesquisa. Em geral, essas consultas são criadas programaticamente. Se seu aplicativo gerar consultas de pesquisa por meio de programação, é recomendável criá-lo de forma que não gere consultas de tamanho ilimitado.

Limites de resposta da API

  • Máximo de 1000 documentos retornados por página de resultados da pesquisa
  • Máximo de 100 sugestões retornadas por solicitação de Sugerir API

Limites de chave de API

As chaves de API são usadas para autenticação de serviço. Há dois tipos. Chaves de administração são especificadas no cabeçalho da solicitação e concedem acesso completo de leitura/gravação ao serviço. Chaves de consulta são somente leitura, especificadas na URL, e, geralmente, são distribuídas para aplicativos cliente.

  • Máximo de duas chaves de administração por serviço
  • Máximo de 50 chaves de consulta por serviço