Compartilhar via


Gerenciar e aumentar cotas e limites de recursos no Azure Machine Learning

O Azure usa cotas e limites para evitar estouros de orçamento devido a fraudes e para honrar as restrições de capacidade do Azure. Considere esses limites conforme você dimensiona para cargas de trabalho de produção. Neste artigo, você aprenderá sobre:

  • Limites padrão de recursos do Azure relacionados ao Azure Machine Learning.
  • Criação de cotas de nível de workspace.
  • Exibição de cotas e limites.
  • Solicitação de aumento de cota.

Juntamente com o gerenciamento de cotas e limites, você pode aprender a planejar e gerenciar os custos do Azure Machine Learning ou saber mais sobre os limites de serviço no Azure Machine Learning.

Considerações especiais

  • As cotas são aplicadas a cada assinatura na sua conta. Se você tiver várias assinaturas, deverá solicitar um aumento de cota para cada assinatura.

  • Uma cota é um limite de crédito nos recursos do Azure, não uma garantia de capacidade. Se precisar de capacidade em larga escala, contate o suporte do Azure para aumentar sua cota.

  • A cota é compartilhada entre todos os serviços em suas assinaturas, incluindo o Azure Machine Learning. Calcule o uso em todos os serviços quando estiver avaliando a capacidade.

    Observação

    A computação do Azure Machine Learning é uma exceção. Ele tem uma cota separada da cota de computação principal.

  • Os limites padrão variam de acordo com o tipo de categoria da oferta, como avaliação gratuita, pagamento conforme o uso e série de máquina virtual (VM) (como Dv2, F e G).

Cotas e limites de recursos padrão

Nessa seção, você saberá mais sobre as cotas e limites máximos padrão para os seguintes recursos:

  • Ativos do Azure Machine Learning
  • Computação do Azure Machine Learning (incluindo o Spark sem servidor)
  • Cota compartilhada do Azure Machine Learning
  • Pontos de extremidade online (tanto gerenciados quanto do Kubernetes) e pontos de extremidade em lote do Azure Machine Learning
  • Pipelines do Azure Machine Learning
  • Integração do Azure Machine Learning com o Synapse
  • Máquinas virtuais
  • Instâncias de Contêiner do Azure
  • Armazenamento do Azure

Importante

Os limites estão sujeitos a alterações. Para obter as informações mais recentes, consulte Limites de serviço no Azure Machine Learning.

Ativos do Azure Machine Learning

Os limites de ativos a seguir se aplicam em uma base de por espaço de trabalho.

Recurso Limite máximo
Conjunto de dados 10 milhões
Execuções 10 milhões
Modelos 10 milhões
Componente 10 milhões
Artifacts 10 milhões

Além disso, o tempo de execução máximo é de 30 dias e o número máximo de métricas registradas por execução é de 1 milhão.

Computação do Azure Machine Learning

A Computação do Azure Machine Learning tem um limite de cota padrão no número de núcleos e no número de recursos de computação exclusivos que são permitidos por região em uma assinatura.

Observação

  • A cota do número de núcleos é dividida por cada família de VM e pelo total cumulativo de núcleos.
  • A cota do número de recursos de computação exclusivos por região é separada da cota principal da VM, pois se aplica apenas aos recursos de computação gerenciados do Azure Machine Learning.

Para aumentar os limites dos itens a seguir, Solicite um aumento de cota:

  • As principais cotas da família de VMs. Para saber mais sobre para qual família de VMs solicitar um aumento de cota, consulte tamanho das máquinas virtuais no Azure. Por exemplo, as famílias de VMs de GPU começam com um "N" em seu nome de família (como a série NCv3).
  • Total de cotas principais da assinatura
  • Cota do cluster
  • Outros recursos nessa seção

Recursos disponíveis:

  • Os núcleos dedicados por região têm um limite padrão de 24 a 300, dependendo de seu tipo de oferta de assinatura. Você pode aumentar o número de núcleos dedicados por assinatura para cada família de VM. Famílias de VM especializadas, como as séries NCv2, NCv3 ou ND, começam com um padrão de zero núcleos. As GPUs também são padrão para zero núcleos.

  • Os núcleos com baixa prioridade por região têm um limite padrão de 100 a 3.000, dependendo do tipo de oferta da assinatura. O número de núcleos de baixa prioridade por assinatura pode ser aumentado e é um valor único nas famílias de VM.

  • O limite de computação total por região tem um limite padrão de 500 por região dentro de uma determinada assinatura e pode ser aumentado até um valor máximo de 2500 por região. Esse limite é compartilhado entre clusters de treinamento, instâncias de computação e implantações de pontos de extremidade online gerenciadas. Para fins de cota, a instância de computação é considerada como um cluster de nó único.

A tabela a seguir mostra mais limites na plataforma. Entre em contato com a equipe de produto do Azure Machine Learning por meio de um tíquete de suporte técnico para solicitar uma exceção.

Recurso ou ação Limite máximo
Máximo de workspaces por grupo de recursos 800
Nós em um único cluster de computação do Azure Machine Learning (AmlCompute) configurado como um pool não habilitado para comunicação (ou seja, não pode executar trabalhos de MPI) 100 nós, mas podem ser configurados até 65.000 nós
Nós em uma única execução da Etapa de Execução Paralela em um cluster de computação do Azure Machine Learning (AmlCompute) 100 nós, mas configurável até 65.000 nós se o cluster estiver configurado para ser dimensionado conforme mencionado anteriormente
Nós em um único cluster de computação do Azure Machine Learning (AmlCompute) configurado como um pool habilitado para comunicação 300 nós, mas podem ser configurados até 4 mil nós
Nós em um único cluster de computação do Azure Machine Learning (AmlCompute) configurado como um pool habilitado para comunicação em uma família de VMs habilitada para RDMA 100 nós
Nós em uma única execução de MPI em um cluster de computação do Azure Machine Learning (AmlCompute) 100 nós
Tempo de vida do trabalho 21 dias1
Tempo de vida do trabalho em um nó de baixa prioridade 7 dias2
Servidores de parâmetro por nó 1

1 O tempo de vida máximo é a duração entre o momento em que um trabalho é iniciado e quando ele é concluído. Os trabalhos concluídos serão persistidos indefinidamente. Os dados de trabalhos não concluídos dentro do tempo de vida máximo não ficam acessíveis.

2 Os trabalhos em um nó de baixa prioridade podem admitir preempção sempre que houver uma restrição de capacidade. Recomendamos que você implemente o ponto de verificação em seu trabalho.

Cota compartilhada do Azure Machine Learning

O Azure Machine Learning fornece um pool de cotas compartilhado do qual os usuários em várias regiões podem acessar a cota para executar testes por um período limitado de tempo, dependendo da disponibilidade. A duração do tempo específica depende do caso de uso. Ao usar temporariamente a cota do pool de cotas, você não precisa mais registrar um tíquete de suporte para um aumento de cota de curto prazo ou aguardar a aprovação da solicitação de cota antes de prosseguir com sua carga de trabalho.

O uso do pool de cotas compartilhado está disponível para executar trabalhos do Spark e para testar a inferência para modelos Llama-2, Phi, Nemotron, Mistral, Dolly e Deci-DeciLM no Catálogo de modelos por um curto período. Antes de implantar esses modelos por meio da cota compartilhada, você deve ter uma Assinatura do Contrato Enterprise. Para obter mais informações sobre como usar a cota compartilhada para implantação de ponto de extremidade online, consulte Como implantar modelos de base usando o estúdio.

Você deve usar a cota compartilhada somente para criar pontos de extremidade de teste temporários, não pontos de extremidade de produção. Para pontos de extremidade em produção, você deve solicitar uma cota dedicada arquivando um tíquete de suporte. A cobrança por cota compartilhada é baseada em uso, assim como a cobrança para famílias de máquinas virtuais dedicadas. Para recusar a cota compartilhada para trabalhos do Spark, preencha o formulário de recusa de alocação de capacidade compartilhada do Azure Machine Learning.

Pontos de extremidade online e pontos de extremidade em lote do Azure Machine Learning

Os pontos de extremidade online e pontos de extremidade em lote do Azure Machine Learning têm limites de recursos descritos na tabela a seguir.

Importante

Esses limites são regionais, o que significa que você pode usar até esses limites por cada região que estiver usando. Por exemplo, se seu limite atual para o número de pontos de extremidade por assinatura for 100, você poderá criar 100 pontos de extremidade na região Leste dos EUA, 100 pontos de extremidade na região Oeste dos EUA e 100 pontos de extremidade em cada uma das outras regiões com suporte em uma única assinatura. O mesmo princípio se aplica a todos os outros limites.

Para determinar o uso atual de um ponto de extremidade, veja as métricas.

Para solicitar uma exceção junto à equipe de produtos do Azure Machine Learning, use as etapas em Aumentos dos limites de pontos de extremidade.

Recurso   Limite 1                                                 Permite exceção Aplicável ao
Nome do ponto de extremidade Os nomes de ponto de extremidade precisam
  • Começar com uma letra
  • Ter 3 a 32 caracteres de comprimento
  • Consiste apenas de letras e números 2
  • Quanto ao ponto de extremidade do Kubernetes, o nome do ponto de extremidade mais o nome da implantação deve ter de 6 a 62 caracteres de comprimento total
  • - Todos os tipos de pontos de extremidade 3
    Nome da implantação Os nomes de implantação precisam
  • Começar com uma letra
  • Ter 3 a 32 caracteres de comprimento
  • Consiste apenas de letras e números 2
  • Quanto ao ponto de extremidade do Kubernetes, o nome do ponto de extremidade mais o nome da implantação deve ter de 6 a 62 caracteres de comprimento total
  • - Todos os tipos de pontos de extremidade 3
    Número de pontos de extremidade por assinatura 100 Sim Todos os tipos de pontos de extremidade 3
    Número de pontos de extremidade por cluster 60 - Ponto de extremidade online do Kubernetes
    Número de implantações por assinatura 500 Sim Todos os tipos de pontos de extremidade 3
    Número de implantações por ponto de extremidade 20 Sim Todos os tipos de pontos de extremidade 3
    Número de implantações por cluster 100 - Ponto de extremidade online do Kubernetes
    Número de instâncias por implantação 50 4 Sim Ponto de extremidade online gerenciado
    Tempo limite máximo da solicitação no nível do ponto de extremidade 180 segundos - Ponto de extremidade online gerenciado
    Tempo limite máximo da solicitação no nível do ponto de extremidade 300 segundos - Ponto de extremidade online do Kubernetes
    Total de solicitações por segundo no nível do ponto de extremidade para todas as implantações 500 5 Sim Ponto de extremidade online gerenciado
    Total de conexões por segundo no nível do ponto de extremidade para todas as implantações 500 5 Sim Ponto de extremidade online gerenciado
    Total de conexões ativas no nível do ponto de extremidade para todas as implantações 500 5 Sim Ponto de extremidade online gerenciado
    Total de largura de banda no nível do ponto de extremidade de todas as implantações 5 MBPS 5 Sim Ponto de extremidade online gerenciado

    1 Esse é um limite regional. Por exemplo, se o limite atual no número de pontos de extremidade for 100, você poderá criar 100 pontos de extremidade na região Leste dos EUA, 100 pontos de extremidade na região Oeste dos EUA e 100 pontos de extremidade em cada uma das outras regiões com suporte em uma única assinatura. O mesmo princípio se aplica a todos os outros limites.

    2 Traços simples, como my-endpoint-name, são aceitos em nomes de pontos de extremidade e implantações.

    3 Os pontos de extremidade e as implantações podem ser de tipos diferentes, mas os limites se aplicam à soma de todos os tipos. Por exemplo, por padrão, a soma de pontos de extremidade online gerenciados, pontos de extremidade online e pontos de extremidade em lote do Kubernetes em cada assinatura não pode exceder 100 por região. Da mesma forma, a soma de implantações online gerenciadas, implantações online do Kubernetes e implantações em lote em cada assinatura não pode exceder 500 por região por padrão.

    4 Reservamos 20% de recursos extras de computação para realizar upgrades. Por exemplo, se você solicitar 10 instâncias em uma implantação, deverá ter uma cota para 12. Caso contrário, você receberá um erro. Alguns SKUs de VM são isentos de cotas adicionais. Para obter mais informações sobre a alocação de cota, confira Alocação de cota de máquina virtual para implantação.

    5 Solicitações por segundo, conexões, largura de banda, etc. estão relacionadas. Se você solicitar aumentar qualquer um desses limites, certifique-se de estimar/calcular outros limites relacionados juntos.

    Alocação de cota de máquina virtual para implantação

    Para pontos de extremidade online gerenciados, o Azure Machine Learning reserva 20% dos recursos de computação para executar atualizações em alguns SKUs de VM. Se você solicitar um determinado número de instâncias para essas SKUs de VM em uma implantação, deverá ter uma cota para ceil(1.2 * number of instances requested for deployment) * number of cores for the VM SKU disponível para evitar receber um erro. Por exemplo, se você solicitar 10 instâncias de uma VM Standard_DS3_v2 (que vem com quatro núcleos) em uma implantação, deverá ter uma cota de 48 núcleos (12 instances * 4 cores) disponíveis. Essa cota extra é reservada para as operações iniciadas pelo sistema, como atualizações do sistema operacional e recuperação de VM, e não incorrerá em custo, a menos que essas operações sejam executadas.

    Há determinados SKUs de VM que são isentos da reserva de cota extra. Para exibir a lista completa, consulte a Lista de SKU de pontos de extremidade online gerenciados. Para exibir o uso e solicitar aumentos de cota, confira Exibir seu uso e cotas no portal do Azure. Para exibir o custo de execução de um ponto de extremidade online gerenciado, consulte Exibir custos de um ponto de extremidade online gerenciado.

    Pipelines do Azure Machine Learning

    Os pipelines do Azure Machine Learning têm os limites a seguir.

    Recurso Limite
    Etapas em um pipeline 30,000
    Máximo de workspaces por grupo de recursos 800

    Integração do Azure Machine Learning com o Synapse

    O Spark sem servidor do Azure Machine Learning fornece acesso fácil à funcionalidade de computação distribuída para dimensionar trabalhos do Apache Spark. O Spark Sem Servidor utiliza a mesma cota dedicada da Computação do Azure Machine Learning. Os limites de cota podem ser aumentados se você enviar um tíquete de suportesolicitando o aumento de cotas e limites da série ESv3 na categoria “Serviço de Machine Learning: Cota de Máquina virtual”.

    Para exibir o uso da cota, navegue até o Estúdio do Machine Learning e selecione o nome da assinatura para o qual você gostaria de ver o uso. Selecione "Cota" no painel esquerdo.

    Captura de tela das cotas do Azure Machine Learning.

    Máquinas virtuais

    Cada assinatura do Azure tem um limite no número de máquinas virtuais em todos os serviços. Os núcleos da máquina virtual têm um limite total regional e um limite regional por série de tamanho. Ambos os limites são aplicados separadamente.

    Por exemplo, considere uma assinatura com uma VM do Leste dos EUA com um limite total de núcleos de 30, um limite de núcleos da série A de 30 e um limite de núcleos da série D de 30. Esta assinatura teria permissão para implantar 30 VMs A1, ou 30 VMs D1 ou uma combinação das duas a fim de não exceder um total de 30 núcleos.

    Não é possível gerar limites para máquinas virtuais acima dos valores mostrados na tabela a seguir.

    Recurso Limite
    Assinaturas do Azure associadas a um locatário do Microsoft Entra Ilimitado
    Coadministradores por assinatura Ilimitado
    Grupos de recursos por assinatura 980
    Tamanho da solicitação de API do Azure Resource Manager 4.194.304 bytes
    Marcas por assinatura1 50
    Cálculos de marca exclusivos por assinatura2 80.000
    Implantações de nível de assinatura por local 8003
    Locais de Implantações de nível de assinatura 10

    1Você pode aplicar até 50 marcas diretamente a uma assinatura. Na assinatura, cada recurso ou grupo de recursos também é limitado a 50 tags. No entanto, a assinatura pode conter um número ilimitado de tags dispersas entre recursos e grupos de recursos.

    2O Resource Manager retorna uma lista de nomes e valores de marca na assinatura somente quando o número de marcas exclusivas for no máximo 80 mil ou inferior. Uma marca exclusiva é definida pela combinação da ID do recurso, nome da marca e valor da marca. Por exemplo, dois recursos com o mesmo nome e valor de marca seriam calculados como duas marcas exclusivas. Você ainda poderá encontrar um recurso por marca quando o número exceder 80 mil.

    3As implantações são automaticamente excluídas do histórico à medida que você se aproxima do limite. Para obter mais informações, confira Exclusões automáticas do histórico de implantações.

    Instâncias de Contêiner

    Para obter mais informações, consulte Limites de Instâncias de Contêiner.

    Armazenamento

    O Armazenamento do Azure tem um limite de 250 contas de armazenamento por região e assinatura. Esse limite inclui contas de armazenamento Standard e Premium.

    Cota de nível de workspace

    Use cotas de nível de workspace para gerenciar a alocação de destino de computação do Azure Machine Learning entre vários workspaces na mesma assinatura.

    Por padrão, todos os workspaces compartilham a mesma cota que a cota de nível de assinatura para as famílias de VMs. No entanto, você pode definir uma cota máxima para famílias de VMs individuais em workspaces em uma assinatura. As cotas para famílias de VMs individuais permitem que você compartilhe a capacidade e evite problemas de contenção de recursos.

    1. Vá para qualquer workspace em sua assinatura.
    2. No painel esquerdo, selecione Usos + cotas.
    3. Selecione a guia Configurar cotas para exibir as cotas.
    4. Expanda uma família de VMs.
    5. Defina um limite de cota em qualquer workspaces listado nessa família de VMs.

    Não é possível definir um valor negativo ou um valor maior que a cota do nível da assinatura.

    Captura de tela que mostra a cota de nível de workspace do Azure Machine Learning.

    Observação

    Você precisa de permissões de nível de assinatura para definir a cota no nível do workspace.

    Exibir cotas no estúdio

    1. Ao criar um novo recurso de computação, por padrão, você verá apenas os tamanhos de VM que você já tem cota para usar. Alterne o modo de exibição para Selecionar de todas as opções.

      A captura de tela mostra Selecionar todas as opções para ver os recursos de computação que precisam de mais cota

    2. Role para baixo até ver a lista de tamanhos de VM para os quais você não tem cota.

      A captura de tela mostra a lista dos itens sem cota

    3. Use o link para ir diretamente à solicitação de suporte ao cliente online para obter mais cota.

    Exiba seu uso e cotas no portal do Azure

    Para exibir sua cota de vários recursos do Azure, como máquinas virtuais, armazenamento ou rede, use o portal do Azure:

    1. No painel esquerdo, selecione Todos os serviços e, em seguida, selecione Assinaturas na categoria Geral.

    2. Na lista de assinaturas, selecione a assinatura cuja cota você está procurando.

    3. Selecione Uso + cotas para exibir os limites de cota atual e o uso. Use os filtros para selecionar o provedor e os locais.

      Você gerencia a cota de computação Azure Machine Learning em sua assinatura separadamente de outras cotas do Azure:

    4. No portal do Azure, acesse o workspace do Azure Machine Learning.

    5. No painel esquerdo, na seção Suporte + solução de problemas, selecione Uso + cotas para exibir os limites de cota e o uso atual.

      Captura de tela da exibição do Portal do Azure dos limites de cota e uso atuais.

    6. Selecione uma assinatura para exibir os limites de cota. Filtre a região em que você está interessado.

    7. Agora você pode alternar entre uma exibição no nível de assinatura e uma exibição no nível do workspace.

    Solicitar aumentos de cotas e limites

    Um aumento da cota de VMs significa aumentar o número de núcleos por família de VM por região. Um aumento dos limites de ponto de extremidade significa aumentar os limites específicos de um ponto de extremidade por assinatura por região. Escolha a categoria certa ao enviar a solicitação de aumento de cota, conforme descrito na próxima seção.

    Aumentos de cota de VMs

    Para aumentar o limite para a cota de VM do Azure Machine Learning acima do limite padrão, você pode solicitar um aumento de cota da exibição uso + cotas acima ou enviar uma solicitação de aumento de cota de Estúdio do Azure Machine Learning.

    1. Navegue até a página Uso + cotas seguindo as instruções acima. Veja os limites de cota atuais. Selecione a SKU para a qual você gostaria de solicitar um aumento.

      Captura de tela dos detalhes da cota da VM.

    2. Forneça a cota que você gostaria de aumentar e o novo valor de limite. Por último, selecione Enviar para continuar.

      Captura de tela do novo formulário de solicitação de cota de VM.

    Aumentos de limites de ponto de extremidade

    Para aumentar os limites do ponto de extremidade, abra uma solicitação de suporte ao cliente online. Ao solicitar o aumento dos limites do ponto de extremidade, forneça as seguintes informações:

    1. Ao abrir a solicitação de suporte, selecione Limites de serviço e assinatura (cotas) como Tipo de assunto.

    2. Selecione a assinatura de sua escolha.

    3. Selecione Serviço do Machine Learning: Limites de ponto de extremidade como o Tipo de cota.

    4. Na guia Detalhes adicionais, você precisa fornecer razões detalhadas para o aumento do limite para que sua solicitação seja processada. Selecione Inserir detalhes e, em seguida, informe o limite que você quer aumentar e o novo valor para cada limite, a razão da sua solicitação de aumento de limites e os locais nos quais você precisa de aumento dos limites. Certifique-se de adicionar as seguintes informações à razão do aumento de limites:

      1. Descrição do seu cenário e da sua carga de trabalho (como, por exemplo, texto, imagem e assim por diante).
      2. Justificativa para o aumento solicitado.
        1. Informe a taxa de transferência alvo e seu padrão (média/pico de QPS, usuários simultâneos).
        2. Informe a latência alvo em larga escala e a latência atual que você observa com uma única instância.
        3. Informe a SKU da VM e o número total de instâncias para dar suporte à taxa de transferência e latência desejadas. Informe quantos pontos de extremidade/implantações/instâncias você planeja usar em cada região.
        4. Confirme se você tem um teste de parâmetro de comparação que indique a SKU de VM e o número de instâncias que você selecionou e que atenderiam às suas necessidades de latência e taxa de transferência.
        5. Informe o tipo de conteúdo e o tamanho de um único conteúdo. A largura de banda de rede deve se alinhar ao tamanho do conteúdo e às solicitações por segundo.
        6. Informe um cronograma planejado (em que momento você irá precisar dos limites maiores, fornecendo um plano em estágios, se possível) e confirme se: (1) o custo de cumpri-lo nessa escala está refletido no seu orçamento; e (2) as SKUs de VM alvo estão aprovadas.
    5. Por fim, selecione Salvar e continuar.

      Captura de tela do formulário de detalhes do limite de ponto de extremidade.

      Observação

      Essa solicitação de aumento de limites de ponto de extremidade é diferente da solicitação de aumento de cotas de VM. Se sua solicitação estiver relacionada ao aumento de cotas de VM, siga as instruções na seção aumentos de cota de VM.

    Aumentos no limite de computação

    Para aumentar o limite total de computação, abra uma solicitação de suporte ao cliente online. Insira as seguintes informações:

    1. Ao abrir a solicitação de suporte, selecione Técnico como o Tipo de problema.

    2. Selecione a assinatura de sua escolha

    3. Selecione Machine Learning como o Serviço.

    4. Selecione o recurso que preferir

    5. No resumo, mencione "Aumentar os limites de computação totais"

    6. Selecione Cluster de cálculo como Tipo de problema e Cluster não escala verticalmente ou está preso no redimensionamento como o Subtipo do problema.

      Captura de tela da guia Descrição do problema.

    7. Na guia Detalhes adicionais, forneça a ID de assinatura, a região, o novo limite (entre 500 e 2500) e a justificativa comercial se desejar aumentar os limites de computação totais nessa região.

      Captura de tela da guia de detalhes adicionais.

    8. Por fim, selecione Criar para criar um tíquete de solicitação de suporte.