Compartilhar via


Servir previsões em tempo real com pontos de extremidade do modelo de ML (versão prévia)

Importante

Esse recurso está na versão prévia.

Microsoft Fabric permite que você forneça previsões em tempo real de modelos de aprendizado de máquina com endpoints online seguros, escaláveis e fáceis de usar. Esses pontos de extremidade estão disponíveis como propriedades internas da maioria dos modelos do Fabric e não exigem nenhuma configuração para iniciar implantações totalmente gerenciadas em tempo real.

Você pode ativar, configurar e consultar pontos de extremidade de modelo com uma API REST voltada para o público. Você também pode começar diretamente pela interface do Fabric, usando uma experiência de baixo código para ativar endpoints de modelos e prever previsões de forma instantânea.

Captura de tela mostrando um modelo de aprendizado de máquina no Fabric com uma propriedade de endpoint integrada para fornecer previsões em tempo real.

Pré-requisitos

Limitações

  • No momento, os pontos de extremidade estão disponíveis para um conjunto limitado de tipos de modelos de aprendizado de máquina, incluindo Keras, LightGBM, Sklearn e XGBoost.
  • No momento, os pontos de extremidade não estão disponíveis para modelos com esquemas baseados em tensor ou sem esquemas.

Introdução aos endpoints de modelo

Os modelos de aprendizado de máquina no Fabric são pré-construídos com pontos de extremidade online que podem ser usados para prover previsões em tempo real. Cada versão registrada do modelo tem uma URL de ponto de extremidade dedicada, que pode ser encontrada na seção "Detalhes do ponto de extremidade" na interface do Fabric. Essa URL termina com um subcaminho designando essa versão específica (por exemplo, /versions/1/score).

Captura de tela mostrando as propriedades de um ponto de extremidade de modelo de ML, que pode ser usado para atender a previsões em tempo real.

Os pontos de extremidade de modelo têm as seguintes propriedades:

Propriedade Descrição Default
Versão padrão Essa propriedade (Yes ou No) indica se a versão é definida como o padrão do modelo para atender a previsões reais. Você pode personalizar a versão padrão nas configurações do modelo. No
Status Essa propriedade indica se o ponto de extremidade está pronto para atender às previsões. O status pode ser Inactive, Activating, Active, Deactivating ou Failed. Somente endpoints ativos podem fornecer previsões. Inactive
Suspensão automática Essa propriedade (On ou Off) indica se o ponto de extremidade, uma vez ativo, deve reduzir a utilização da capacidade para zero na ausência de tráfego. Se a suspensão automática estiver ativada, o endpoint entrará em um estado ocioso após cinco minutos sem solicitações de entrada. A primeira chamada para ativar um ponto de extremidade ocioso envolve um pequeno atraso. On

Ativar pontos de extremidade de modelo

Você pode ativar endpoints de modelo diretamente na interface do Fabric. Navegue até a versão que você gostaria de usar para previsões em tempo real e selecione "Ativar ponto de extremidade da versão" na barra de ferramentas.

Captura de tela mostrando como ativar um ponto de extremidade de modelo ML na interface do Fabric.

Uma mensagem de notificação mostra que o Fabric está preparando seu ponto de extremidade para fornecer previsões, e o status do ponto de extremidade é alterado para "Ativando". Por trás das cenas, o Fabric configura a infraestrutura de contêiner necessária para hospedar seu modelo. Em poucos minutos, o endpoint estará pronto para fornecer previsões.

Captura de tela mostrando um ponto de extremidade do modelo de ML que agora está sendo ativado.

Cada ponto de extremidade tem um status que indica se ele está pronto para atender a previsões em tempo real:

Status Descrição
Inactive O endpoint não está ativado para atender previsões em tempo real e não está consumindo capacidade do Fabric.
Activating O endpoint está sendo configurado para fornecer previsões em tempo real. Nos bastidores, o Fabric configura a infraestrutura de contêiner subjacente para hospedar o modelo. Em poucos minutos, o endpoint está ativo.
Active O ponto de extremidade está pronto para atender a predições em tempo real. Nos bastidores, o Fabric gerencia a infraestrutura subjacente, aumentando o uso de recursos com base no tráfego de entrada. O tráfego mais alto resulta em maior uso da capacidade do Fabric.
Deactivating O endpoint está sendo desativado, para que ele não forneça mais previsões em tempo real nem consuma a capacidade do Fabric. Nos bastidores, o Fabric desmonta a infraestrutura de contêiner subjacente.

Observação

Os modelos de ML podem dar suporte a endpoints ativos para até cinco versões ao mesmo tempo. Para processar previsões de uma sexta versão, primeiro você deve desativar um endpoint ativo.

Gerenciar pontos de extremidade de modelo

Para obter uma visão geral dos pontos de extremidade ativos do modelo, selecione "Gerenciar pontos de extremidade" na faixa de opções na interface. Cada modelo tem um ponto de extremidade padrão personalizável, que atende a previsões de uma versão escolhida. Você pode atualizar a versão padrão usando o menu suspenso no painel de configurações.

Captura de tela mostrando a URL do endpoint do modelo de ML padrão, que você pode configurar para oferecer previsões a partir de uma versão específica.

Importante

Certifique-se de definir a propriedade padrão para uma versão ativa se você planeja usá-la. Se a propriedade padrão não estiver definida ou estiver definida como uma versão inativa, as chamadas para o ponto de extremidade padrão falharão.

Todas as versões com pontos de extremidade ativos são listadas nas configurações de ponto de extremidade do modelo. Você pode modificar a propriedade de suspensão automática de cada ponto de extremidade alternando o interruptor para "Ligado" ou "Desligado".

Captura de tela mostrando como alterar a propriedade de suspensão automática nos endpoints do modelo de ML.

Dica

Pontos de extremidade ativos com a suspensão automática ativada entram em estado de inatividade após cinco minutos sem tráfego, e a primeira ação para reativá-los envolve um pequeno atraso. Talvez você queira desativar essa propriedade para endpoints em produção.

Consultar pontos de extremidade do modelo para previsões em tempo real

Os pontos de extremidade de modelo estão disponíveis para testes instantâneos com uma experiência de baixo código no Fabric. Navegue até uma versão com um ponto de extremidade ativo e selecione "Visualizar previsões" na faixa de opções da interface. Você pode enviar requisições de teste para o endpoint e obter previsões em tempo real usando campos de formulário que correspondam à assinatura de entrada do modelo.

Captura de tela mostrando a experiência de prévia integrada para a obtenção de previsões de exemplo de um ponto de extremidade de modelo de ML ativo.

Para preencher os campos de formulário com valores de exemplo aleatórios, selecione "Preenchimento automático". Você pode adicionar mais conjuntos de valores de formulário para testar o ponto de extremidade com várias entradas. Selecione "Obter previsões" para enviar sua solicitação de exemplo ao ponto de extremidade.

Captura de tela mostrando a visualização baseada em formulário para envio de solicitações de exemplo para um endpoint de modelo de ML ativo.

Se você preferir formatar solicitações de exemplo como cargas JSON, use o seletor suspenso para alterar a visualização.

Captura de tela mostrando a exibição baseada em JSON para enviar solicitações de exemplo para um ponto de extremidade de modelo ML ativo.

Desativar pontos de extremidade de modelo

Você pode desativar endpoints de modelos diretamente na interface do Fabric. Navegue até uma versão que você não precisa mais para fornecer previsões em tempo real e selecione "Desativar ponto de extremidade de versão" na barra de ferramentas na interface.

Captura de tela mostrando como desativar um ponto de extremidade do modelo ML da interface do Fabric.

Uma mensagem de notificação mostra que o Fabric está desativando sua implantação ativa, e o status do ponto de extremidade é alterado para "Desativando". O ponto de extremidade não é mais capaz de atender a previsões em tempo real, a menos que você o reative.

Captura de tela mostrando um endpoint do modelo de Aprendizado de Máquina que está sendo desativado.

Você pode desativar endpoints para várias versões ao mesmo tempo no painel de configurações do modelo. Selecione "Gerenciar pontos de extremidade" na faixa de opções na interface e escolha um ou mais pontos de extremidade ativos para desativar.

Captura de tela mostrando como desativar vários pontos de extremidade de modelo de ML ao mesmo tempo na interface do Fabric.

Taxa de consumo

Hospedar pontos de extremidade de modelo ativo consome CUs (Unidades de Capacidade do Fabric). Os pontos de extremidade são executados em nós de computação e podem aumentar automaticamente até três nós, dependendo do tráfego de entrada. A cobrança é calculada por nó enquanto o endpoint está ativo. A tabela a seguir mostra o consumo de CU para um endpoint de modelo de aprendizado de máquina ativo.

Operação Unidade de Medida da Operação Taxa de consumo
ponto de extremidade do modelo 1 ponto de extremidade de modelo (versão) por segundo por nó 5 segundos de

A tabela a seguir mostra cenários de exemplo e suas taxas de consumo correspondentes e custos por hora.

Cenário Descrição Taxa de consumo Custo por hora
Modelos com pontos de extremidade inativos Esses modelos não têm pontos de extremidade de versão ativos e nenhuma utilização de recurso associada. Eles não envolvem nenhum custo adicional. 0 segundos de CU 0 Hora CU
Modelos com pontos de extremidade ativos, mas ociosos Esses modelos têm um ou mais pontos de extremidade de versão ativos, mas, sem tráfego regular, todos foram dimensionados para zero, reduzindo os custos automaticamente. 5 segundos de 0,42 Horas CU
Modelos com 1 ponto de extremidade ativo e tráfego baixo constante Esses modelos têm apenas 1 endpoint de versão ativa servindo previsões, mas sem tráfego suficiente para disparar uma expansão completa. Um nó pode atender a todo o tráfego. Outros terminais de versão podem estar inativos ou ociosos. 5 segundos de 5 horas de unidades de crédito
Modelos com 1 ponto de extremidade ativo e tráfego alto constante Esses modelos têm apenas 1 ponto de extremidade de versão ativo servindo previsões, com tráfego suficiente para disparar uma expansão completa. Outros pontos de extremidade de versão podem estar inativos ou ociosos. 15 segundos de unidades de computação 15 Horas de Crédito Unidade
Modelos com tráfego constantemente alto e 5 endpoints ativos Esses modelos têm cinco pontos de extremidade de versão ativos (o limite atual) servindo previsões, cada um com tráfego suficiente para disparar uma expansão completa. 75 segundos de unidade de computação 75 Horas de Créditos Universitários

O aplicativo Métricas de Capacidade do Fabric exibe o uso total da capacidade para operações de ponto de extremidade de modelo sob o nome "Ponto de Extremidade do Modelo". Além disso, os usuários podem exibir um resumo de seus encargos de cobrança para o uso do Ponto de Extremidade de Modelo no item de faturamento "de Uso da Capacidade do Ponto de Extremidade do Modelo de ML".

A operação de ponto de extremidade de modelo é classificada como operações em segundo plano.

As taxas de consumo estão sujeitas a alterações a qualquer momento. A Microsoft usa esforços razoáveis para fornecer aviso por email ou por meio de notificação no produto. As alterações devem entrar em vigor na data declarada nas Notas de Versão da Microsoft ou no Blog do Microsoft Fabric. Se qualquer alteração no ponto de extremidade do modelo na Taxa de Consumo do Fabric aumentar materialmente as Unidades de Capacidade () necessárias para uso, os clientes poderão usar as opções de cancelamento disponíveis para a forma de pagamento escolhida.