Cotas e limites do serviço de fala
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites para o serviço de Fala nos serviços de IA do Azure. As informações aplicam-se a todos os níveis de preços do serviço. Ele também contém algumas práticas recomendadas para evitar a limitação de solicitações.
Para o nível de preço gratuito (F0), consulte também os subsídios mensais na página de preços.
Referência a quotas e limites
As seções a seguir fornecem um guia rápido para as cotas e limites que se aplicam ao serviço de Fala.
Para obter informações sobre cotas ajustáveis para recursos de fala padrão (S0), consulte mais explicações, práticas recomendadas e instruções de ajuste. As cotas e limites para recursos de Fala Livre (F0) não são ajustáveis.
Importante
Se você alternar um recurso de fala do nível de preço Livre (F0) para Padrão (S0), a alteração das cotas correspondentes pode levar até várias horas.
Cotas e limites de fala para texto por recurso
Esta seção descreve cotas e limites de fala para texto por recurso de fala. A menos que especificado de outra forma, os limites não são ajustáveis.
Conversão de fala em texto e fala em tempo real
Você pode usar fala em tempo real para texto com o SDK de fala ou a API REST de fala para texto para áudio curto.
Importante
Esses limites se aplicam a solicitações simultâneas de fala em tempo real para texto e solicitações de tradução de fala combinadas. Por exemplo, se você tiver 60 solicitações simultâneas de fala para texto e 40 solicitações simultâneas de tradução de fala, atingirá o limite de 100 solicitações simultâneas.
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Limite de solicitação simultânea - ponto de extremidade do modelo base | 1 Este limite não é ajustável. |
100 (valor padrão) A taxa é ajustável para recursos Standard (S0). Veja mais explicações, práticas recomendadas e instruções de ajuste. |
Limite de solicitações simultâneas - ponto de extremidade personalizado | 1 Este limite não é ajustável. |
100 (valor padrão) A taxa é ajustável para recursos Standard (S0). Veja mais explicações, práticas recomendadas e instruções de ajuste. |
Duração máxima do áudio para diarização em tempo real. | N/A | 240 minutos por ficheiro |
Transcrição rápida
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Tamanho máximo do ficheiro de entrada de áudio | N/A | 200 MB |
Duração máxima do áudio | N/A | 120 minutos por ficheiro |
Máximo de pedidos por minuto | N/A | 300 |
Transcrição em lotes
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Limite da API REST de fala para texto | Não disponível para F0 | 100 pedidos por 10 segundos (600 pedidos por minuto) |
Tamanho máximo do arquivo de entrada de áudio | N/D | 1 GB |
Número máximo de blobs por contêiner | N/A | 10000 |
Número máximo de arquivos por solicitação de transcrição (quando você estiver usando vários URLs de conteúdo como entrada). | N/A | 1000 |
Duração máxima do áudio para transcrições com diarização ativada. | N/A | 240 minutos por ficheiro |
Personalização do modelo
Os limites nesta tabela aplicam-se por recurso de Fala quando você cria um modelo de fala personalizado.
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Limite da API REST | 100 pedidos por 10 segundos (600 pedidos por minuto) | 100 pedidos por 10 segundos (600 pedidos por minuto) |
Número máximo de conjuntos de dados de fala | 2 | 500 |
Tamanho máximo do arquivo do conjunto de dados acústico para importação de dados | 2 GB | 2 GB |
Tamanho máximo do arquivo do conjunto de dados de idioma para importação de dados | 200 MB | 1,5 GB |
Tamanho máximo do arquivo do conjunto de dados de pronúncia para importação de dados | 1 KB | 1 MB |
Tamanho máximo do texto quando você estiver usando o text parâmetro na solicitação de API do Models_Create |
200 kb | 500 KB |
Cotas e limites de texto para fala por recurso
Esta seção descreve cotas e limites de texto para fala por recurso de fala.
Conversão de texto em voz em tempo real
Você pode usar texto para fala em tempo real com o SDK de fala ou a API REST de texto para fala. A menos que especificado de outra forma, os limites não são ajustáveis.
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Número máximo de transações por período de tempo para vozes neurais pré-construídas e vozes neurais personalizadas. | 20 transações por 60 segundos Este limite não é ajustável. |
200 transações por segundo (TPS) (valor padrão) A taxa é ajustável até 1000 TPS para recursos Standard (S0). Veja mais explicações, práticas recomendadas e instruções de ajuste. |
Duração máxima do áudio produzido por solicitação | 10 minutos | 10 minutos |
Número total máximo de distintivos <voice> e <audio> tags em SSML |
50 | 50 |
Tamanho máximo da mensagem SSML por turno para websocket | 64 KB | 64 KB |
Síntese em lote
Esses limites não são ajustáveis. Para obter mais informações sobre a latência da síntese em lote, consulte a latência da síntese em lote e as práticas recomendadas.
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Limite da API REST | Não disponível para F0 | 100 pedidos por 10 segundos |
Tamanho máximo da carga útil JSON para criar um trabalho de síntese | N/A | 2 megabytes |
Trabalhos simultâneos de síntese ativa | N/A | Sem limite |
Número máximo de entradas de texto por trabalho de síntese | N/A | 10000 |
Max tempo de vida para um trabalho de síntese desde que esteja no estado final | N/A | Até 31 dias (especificado usando propriedades) |
Voz neural personalizada - profissional
Os limites nesta tabela aplicam-se por recurso de Fala quando você cria um modelo de voz neural personalizado profissional.
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Número máximo de transações por segundo (TPS) | Não disponível para F0 | 200 transações por segundo (TPS) (valor padrão) |
Número máximo de conjuntos de dados | N/A | 500 |
Número máximo de carregamentos simultâneos de conjuntos de dados | N/A | 5 |
Tamanho máximo do arquivo de dados para importação de dados por conjunto de dados | N/A | 2 GB |
Upload de áudio longo ou áudio sem script | N/A | Sim |
Número máximo de treinamentos de modelos simultâneos | N/A | 4 |
Número máximo de pontos de extremidade personalizados | N/A | 50 |
Voz neural personalizada - voz pessoal
Os limites nesta tabela aplicam-se por recurso de Fala quando cria uma voz pessoal.
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Limite da API REST (não incluindo síntese de fala) | Não disponível para F0 | 50 pedidos por 10 segundos |
Número máximo de transações por segundo (TPS) para síntese de fala | Não disponível para F0 | 200 transações por segundo (TPS) (valor padrão) |
Avatar de texto em lote para fala
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Limite da API REST | Não disponível para F0 | 2 pedidos por 1 minuto |
Avatar de texto para fala em tempo real
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Novas ligações por minuto | Não disponível para F0 | 2 novas conexões por minuto |
Duração máxima da conexão com a fala | Não disponível para F0 | 10 minutos1 |
Duração máxima da conexão com estado ocioso | Não disponível para F0 | 5 minutos |
1 Para garantir a operação contínua do avatar em tempo real por mais de 10 minutos, você pode ativar a reconexão automática. Para obter informações sobre como configurar a reconexão automática, consulte este código de exemplo (pesquise "reconexão automática").
Ferramenta de criação de conteúdo de áudio
Quota | Grátis (F0) | Padrão (S0) |
---|---|---|
Tamanho do ficheiro (texto simples em SSML)1 | 3.000 caracteres por arquivo | 20.000 caracteres por arquivo |
Tamanho do ficheiro (ficheiro léxico)2 | 30KB por ficheiro | 100KB por ficheiro |
Caracteres faturáveis em SSML | 15.000 caracteres por arquivo | 100.000 caracteres por arquivo |
Exportar para biblioteca de áudio | 1 tarefa simultânea | N/A |
1 O limite aplica-se apenas a texto simples em SSML e não inclui etiquetas.
2 Os caracteres do arquivo de léxico não são cobrados. Apenas os elementos do léxico no SSML são contados como caracteres faturáveis. Consulte os caracteres faturáveis para saber mais.
Quotas e limites de reconhecimento de oradores por recurso
O reconhecimento de alto-falantes é limitado a 20 transações por segundo (TPS).
Descrição detalhada, ajuste de cota e práticas recomendadas
Algumas das cotas do serviço de Fala são ajustáveis. Esta seção fornece mais explicações, práticas recomendadas e instruções de ajuste.
As cotas a seguir são ajustáveis para recursos Standard (S0). Os limites de solicitação Gratuito (F0) não são ajustáveis.
- Limite de solicitação simultânea de fala para texto para ponto de extremidade do modelo base e ponto de extremidade personalizado
- Número máximo de transações de texto para fala por período de tempo para vozes neurais pré-construídas e vozes neurais personalizadas
- Limite de solicitação simultânea de tradução de fala
Antes de solicitar um aumento de cota (quando aplicável), verifique seu TPS atual (transações por segundo) e verifique se é necessário aumentar a cota. O serviço de fala usa tecnologias de dimensionamento automático para trazer os recursos computacionais necessários no modo sob demanda. Ao mesmo tempo, o serviço de Fala tenta manter seus custos baixos, não mantendo uma quantidade excessiva de capacidade de hardware.
Vamos ver um exemplo. Suponha que seu aplicativo receba o código de resposta 429, o que indica que há muitas solicitações. Seu aplicativo recebe essa resposta mesmo que sua carga de trabalho esteja dentro dos limites definidos pela referência Cotas e limites. A explicação mais provável é que o serviço de Fala está se expandindo para sua demanda e ainda não atingiu a escala necessária. Portanto, o serviço não tem recursos suficientes imediatamente para atender à solicitação. Nesses casos, aumentar a cota não ajudará. Na maioria dos casos, o serviço de Fala será ampliado em breve e o problema que causa o código de resposta 429 será resolvido.
Práticas recomendadas gerais para reduzir a limitação durante o dimensionamento automático
Para minimizar os problemas relacionados à limitação, é uma boa ideia usar as seguintes técnicas:
- Implemente a lógica de repetição na aplicação.
- Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente. Por exemplo, digamos que seu aplicativo esteja usando conversão de texto em fala e sua carga de trabalho atual seja de 5 TPS. No segundo seguinte, você aumenta a carga para 20 TPS (ou seja, quatro vezes mais). O serviço de fala começa imediatamente a ser dimensionado para atender à nova carga, mas não pode ser dimensionado conforme necessário em um segundo. Alguns dos pedidos recebem o código de resposta 429 (demasiados pedidos).
- Teste diferentes padrões de aumento de carga. Para obter mais informações, consulte o exemplo de padrão de carga de trabalho.
- Crie mais recursos do serviço de Fala em diferentes regiões e distribua a carga de trabalho entre elas. (Criar vários recursos do serviço de Fala na mesma região não afetará o desempenho, porque todos os recursos são servidos pelo mesmo cluster de back-end).
As secções seguintes descrevem casos específicos de ajustamento de quotas.
Conversão de fala em texto: aumente o limite de solicitações simultâneas de fala para texto em tempo real
Por padrão, o número de solicitações simultâneas de conversão de fala em texto e fala em tempo real combinadas é limitado a 100 por recurso no modelo base e 100 por ponto de extremidade personalizado no modelo personalizado. Para o nível de preço padrão, você pode aumentar esse valor. Antes de enviar a solicitação, verifique se você está familiarizado com o material discutido anteriormente neste artigo, como as práticas recomendadas para reduzir a limitação.
Nota
Os limites de solicitação simultânea para modelos básicos e personalizados precisam ser ajustados separadamente. Você pode ter um recurso de serviço de Fala associado a muitos pontos de extremidade personalizados hospedando muitas implantações de modelo personalizado. Conforme necessário, os ajustes de limite por ponto de extremidade personalizado devem ser solicitados separadamente.
Aumentar o limite de solicitações simultâneas não afeta diretamente seus custos. O serviço de Fala usa um modelo de pagamento que exige que você pague apenas pelo que usar. O limite define o quão alto o serviço pode ser dimensionado antes de começar a limitar suas solicitações.
Você não consegue ver o valor existente do parâmetro de limite de solicitação simultânea no portal do Azure, nas ferramentas de linha de comando ou nas solicitações de API. Para verificar o valor existente, crie uma solicitação de suporte do Azure.
Nota
Os contêineres de fala não exigem aumentos do limite de solicitações simultâneas, porque os contêineres são restringidos apenas pelas CPUs do hardware em que estão hospedados. Os contentores de voz têm, no entanto, as suas próprias limitações de capacidade que devem ser tidas em conta. Para obter mais informações, consulte as Perguntas frequentes sobre contêineres de fala.
Tenha as informações necessárias prontas
- Para o modelo de base:
- ID do recurso de fala
- País/Região
- Para o modelo personalizado:
- País/Região
- ID de ponto de extremidade personalizado
Como obter informações para o modelo base:
- Aceda ao portal do Azure.
- Selecione o recurso de serviço de Fala para o qual você gostaria de aumentar o limite de solicitação de simultaneidade.
- No grupo Gerenciamento de Recursos, selecione Propriedades.
- Copie e salve os valores dos seguintes campos:
- ID do recurso
- Localização (sua região de ponto final)
Como obter informações para o modelo personalizado:
- Vá para o portal do Speech Studio .
- Inicie sessão, se necessário, e aceda a Voz personalizada.
- Selecione seu projeto e vá para Implantação.
- Selecione o ponto de extremidade necessário.
- Copie e salve os valores dos seguintes campos:
- Região de serviço (sua região de ponto final)
- ID do ponto de extremidade
Criar e enviar uma solicitação de suporte
Inicie o aumento do limite para solicitações simultâneas para seu recurso ou, se necessário, verifique o limite atual, enviando uma solicitação de suporte. Saiba como:
- Certifique-se de ter as informações necessárias listadas na seção anterior.
- Aceda ao portal do Azure.
- Selecione o recurso do serviço de Fala para o qual você gostaria de aumentar (ou verificar) o limite de solicitação de simultaneidade.
- No grupo Suporte + solução de problemas, selecione Nova solicitação de suporte. Uma nova janela é exibida, com informações preenchidas automaticamente sobre sua assinatura do Azure e o recurso do Azure.
- Em Resumo, descreva o que você deseja (por exemplo, "Aumentar o limite de solicitação de simultaneidade de fala para texto").
- Em Tipo de problema, selecione Problemas de cota ou Assinatura.
- No subtipo Problema, selecione:
- A cota ou as solicitações simultâneas aumentam para uma solicitação de aumento.
- Validação de cota ou uso para verificar o limite existente.
- Selecione Seguinte: Soluções. Avance com a criação do pedido.
- Na guia Detalhes, no campo Descrição, insira o seguinte:
- Uma nota que o pedido é sobre a quota de discurso para texto.
- Escolha o modelo base ou personalizado.
- As informações de recursos do Azure que você coletou anteriormente.
- Quaisquer outras informações necessárias.
- No separador Rever + criar, selecione Criar.
- Anote o número do pedido de suporte nas notificações do portal do Azure. Você será contatado em breve sobre o seu pedido.
Exemplo de uma prática recomendada de padrão de carga de trabalho
Aqui está um exemplo geral de uma boa abordagem a ser adotada. Destina-se apenas como um modelo que você pode ajustar conforme necessário para seu próprio uso.
Suponha que um recurso de serviço de Fala tenha o limite de solicitação simultânea definido como 300. Inicie a carga de trabalho a partir de 20 conexões simultâneas e aumente a carga em 20 conexões simultâneas a cada 90-120 segundos. Controle as respostas do serviço e implemente a lógica que retorna (reduz a carga) se você receber muitas solicitações (código de resposta 429). Em seguida, tente novamente o aumento de carga em um minuto e, se ainda assim não funcionar, tente novamente em dois minutos. Use um padrão de 1-2-4-4 minutos para os intervalos.
Geralmente, é uma boa ideia testar a carga de trabalho e os padrões de carga de trabalho antes de ir para a produção.
Conversão de texto em fala: aumentar o limite de solicitações simultâneas
Para o nível de preço padrão, você pode aumentar esse valor. Antes de enviar a solicitação, verifique se você está familiarizado com o material discutido anteriormente neste artigo, como as práticas recomendadas para reduzir a limitação.
Aumentar o limite de solicitações simultâneas não afeta diretamente seus custos. O serviço de fala usa um modelo de pagamento que exige que você pague apenas pelo que usar. O limite define o quão alto o serviço pode ser dimensionado antes de começar a limitar suas solicitações.
Você não consegue ver o valor existente do parâmetro de limite de solicitação simultânea no portal do Azure, nas ferramentas de linha de comando ou nas solicitações de API. Para verificar o valor existente, crie uma solicitação de suporte do Azure.
Nota
Os contêineres de fala não exigem aumentos do limite de solicitações simultâneas, porque os contêineres são restringidos apenas pelas CPUs do hardware em que estão hospedados.
Preparar as informações necessárias
Para criar uma solicitação de aumento, você precisa fornecer suas informações.
- Para a voz pré-construída:
- ID do recurso de fala
- País/Região
- Para a voz personalizada:
- Região de Implementação
- ID de ponto de extremidade personalizado
Como obter informações para a voz pré-construída:
- Aceda ao portal do Azure.
- Selecione o recurso de serviço de Fala para o qual você gostaria de aumentar o limite de solicitação de simultaneidade.
- No grupo Gerenciamento de Recursos, selecione Propriedades.
- Copie e salve os valores dos seguintes campos:
- ID do recurso
- Localização (sua região de ponto final)
Como obter informações para a voz personalizada:
- Vá para o portal do Speech Studio .
- Inicie sessão, se necessário, e aceda a Voz personalizada.
- Selecione seu projeto e vá para Implantar modelo.
- Selecione o ponto de extremidade necessário.
- Copie e salve os valores dos seguintes campos:
- Região de serviço (sua região de ponto final)
- ID do ponto de extremidade
Criar e enviar uma solicitação de suporte
Inicie o aumento do limite para solicitações simultâneas para seu recurso ou, se necessário, verifique o limite atual, enviando uma solicitação de suporte. Saiba como:
- Certifique-se de ter as informações necessárias listadas na seção anterior.
- Aceda ao portal do Azure.
- Selecione o recurso do serviço de Fala para o qual você gostaria de aumentar (ou verificar) o limite de solicitação de simultaneidade.
- No grupo Suporte + solução de problemas, selecione Nova solicitação de suporte. Uma nova janela é exibida, com informações preenchidas automaticamente sobre sua assinatura do Azure e o recurso do Azure.
- Em Resumo, descreva o que você deseja (por exemplo, "Aumentar o limite de solicitação de simultaneidade de texto para fala").
- Em Tipo de problema, selecione Problemas de cota ou Assinatura.
- No subtipo Problema, selecione:
- A cota ou as solicitações simultâneas aumentam para uma solicitação de aumento.
- Validação de cota ou uso para verificar o limite existente.
- Na guia Solução recomendada, selecione Avançar.
- Na guia Detalhes adicionais, preencha todos os itens necessários. E no campo Detalhes , insira o seguinte:
- Uma nota que o pedido é sobre a cota de texto para fala.
- Escolha a voz pré-construída ou a voz personalizada.
- As informações de recursos do Azure que você coletou anteriormente.
- Quaisquer outras informações necessárias.
- No separador Rever + criar, selecione Criar.
- Anote o número do pedido de suporte nas notificações do portal do Azure. Você será contatado em breve sobre o seu pedido.
Avatar de texto para fala: aumente o limite de novas conexões
Para aumentar o limite de novas conexões por minuto para avatar de texto para fala, entre em contato com seu representante de vendas para criar um ticket com as seguintes informações:
- URI do recurso de fala
- Solicitada nova limitação para aumentar para
- Justificação do aumento
- Data de início do aumento
- Data limite para o aumento
- Avatar pré-construído ou avatar personalizado