Compartilhar via


Criar endpoints para os serviços web implantados do Machine Learning Studio (versão clássica)

APLICA-SE A:Aplica-se a.Machine Learning Studio (clássico) Não se aplica a.Azure Machine Learning

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Depois que um serviço Web for implantado, criaremos um ponto de extremidade padrão para esse serviço. O ponto de extremidade padrão pode ser chamado usando sua chave de API. Você pode adicionar mais pontos finais com suas próprias chaves no portal de Serviços Web. Cada endpoint no serviço Web é gerenciado, limitado e tratado de forma independente. Cada ponto de extremidade é uma única URL com uma chave de autorização que você pode distribuir aos seus clientes.

Adicionar endereços de ponto final a um serviço Web

Você pode adicionar um endpoint a um web service utilizando o portal de serviços Web do Machine Learning. Assim que o endpoint é criado, você pode acessá-lo por meio de APIs síncronas, APIs de lote e planilhas do Excel.

Observação

Caso você tenha adicionado mais pontos de extremidade ao serviço Web, você não poderá excluir o ponto de extremidade padrão.

  1. No Machine Learning Studio (clássico), clique em Serviços Web na coluna de navegação à esquerda.
  2. Na parte inferior do painel do serviço Web, clique em Gerenciar pontos de extremidade. O portal de Serviços Web do Machine Learning abre para a página de endpoints do serviço web.
  3. Clique em Novo.
  4. Digite um nome e uma descrição para o novo ponto de extremidade. Os nomes dos pontos de extremidade precisam ter até 24 caracteres e devem consistir de letras do alfabeto em minúsculas ou números. Selecione o nível de registro e se os dados de exemplo estão habilitados. Para obter mais informações sobre o registro de logs, consulte Habilitar os logs para serviços de Machine Learning baseados na Web.

Dimensionar um serviço Web adicionando pontos de extremidade adicionais

Por padrão, cada serviço Web publicado é configurado para oferecer suporte a 20 a 200 solicitações simultâneas. O Machine Learning Studio (clássico) otimiza automaticamente essa configuração para fornecer o melhor desempenho ao serviço web, e o valor do portal é desprezado.

Se você planeja chamar a API com uma carga maior do que o valor máximo de 200 Chamadas Simultâneas suportaria, é preciso criar vários endpoints no mesmo Serviço Web. Você pode, então, distribuir a carga aleatoriamente entre todos eles.

O dimensionamento de um serviço Web é uma tarefa comum. Entre os motivos para dimensionar estão oferecer suporte a mais de 200 solicitações simultâneas, aumentar a disponibilidade por meio de vários pontos de extremidade ou fornecer pontos de extremidade separados ao serviço Web. É possível aumentar a escala adicionando mais pontos de extremidade ao mesmo serviço Web por meio do portal do Serviço Web de Machine Learning.

Tenha em mente que usar uma contagem de simultaneidade alta pode ser prejudicial se você não estiver chamando a API com uma taxa correspondentemente alta. Você pode ver tempos limite esporádicos e/ou picos na latência se colocar uma carga relativamente baixa em uma API configurada para alta carga.

As APIs síncronas são normalmente usadas em situações onde uma baixa latência é desejada. A latência aqui indica o tempo necessário para a API concluir uma solicitação e não se responsabiliza por quaisquer atrasos na rede. Digamos que você tenha uma API com uma latência de 50 ms. Para consumir totalmente a capacidade disponível com nível de limitação Alto e Máximo de Chamadas Concomitantes = 20, é necessário chamar esta API 20 * 1000 / 50 = 400 vezes por segundo. Estendendo isso ainda mais, um Máximo de Chamadas Simultâneas de 200 permite que você chame a API 4000 vezes por segundo, supondo que a latência seja de 50 ms.

Próximas etapas

Como consumir um serviço Web do Machine Learning.