Servir previsões em tempo real com pontos de extremidade do modelo de ML (versão prévia)

Importante

Esse recurso está na versão prévia.

O Microsoft Fabric permite que você forjece previsões em tempo real a partir de modelos de ML usando endpoints online seguros, escaláveis e fáceis de usar. A maioria dos modelos Fabric inclui esses endpoints como propriedades integradas, e eles não requerem configuração para iniciar implantações totalmente gerenciadas em tempo real.

Você pode ativar, configurar e consultar pontos de extremidade de modelo usando uma API REST voltada para o público. Você também pode começar diretamente pela interface do Fabric usando uma experiência low-code para ativar os endpoints dos modelos e pré-visualizar previsões instantaneamente.

Pré-requisitos

Seu inquilino tem endpoints do modelo de aprendizado de máquina ativados por padrão. Se o administrador quiser desabilitar esse recurso, ele pode desativar o interruptor do tenant para endpoints de modelo de ML no portal de administração do Fabric.

Limitações

No momento, os pontos de extremidade estão disponíveis para um conjunto limitado de tipos de modelos de aprendizado de máquina, incluindo Keras, LightGBM, Sklearn e XGBoost.
No momento, os pontos de extremidade não estão disponíveis para modelos com esquemas baseados em tensor ou sem esquemas.

Observação

Endpoints de aprendizado de máquina suportam modelos treinados em AutoML.

Introdução aos endpoints de modelo

Modelos de ML no Fabric vêm pré-construídos com endpoints online que você pode usar para servir previsões em tempo real. Cada versão registrada do modelo possui uma URL dedicada ao endpoint, que você pode encontrar sob o título Detalhes do Endpoint na interface do Fabric. Essa URL termina com um subcaminho que designa a versão específica (por exemplo, /versions/1/score).

Os pontos de extremidade de modelo têm as seguintes propriedades:

Propriedade	Descrição	Default
Versão padrão	Essa propriedade (`Yes` ou `No`) indica se a versão está definida como padrão do modelo para servir previsões reais. Você pode personalizar a versão padrão nas configurações do modelo.	`No`
Status	Essa propriedade indica se o ponto de extremidade está pronto para atender às previsões. O status pode ser `Inactive`, `Activating`, `Active`, `Deactivating` ou `Failed`. Somente endpoints ativos podem fornecer previsões.	`Inactive`
Suspensão automática	Essa propriedade (`On` ou `Off`) indica se o ponto de extremidade, uma vez ativo, deve reduzir a utilização da capacidade para zero na ausência de tráfego. Se o modo de suspensão automática estiver ativado, o endpoint entra em estado de inatividade após cinco minutos sem receber solicitações. A primeira chamada para ativar um ponto de extremidade ocioso envolve um pequeno atraso.	`On`

Ativar pontos de extremidade de modelo

Você pode ativar endpoints de modelo diretamente da interface do Fabric. Acesse a versão que deseja usar para previsões em tempo real e selecione Ativar ponto de extremidade da versão na faixa de opções.

Uma mensagem de toast mostra que o Fabric está preparando seu endpoint para servir previsões, e o status do endpoint muda para Activating. Nos bastidores, o Fabric inicia a infraestrutura de contêineres subjacente para hospedar seu modelo. Em poucos minutos, o endpoint estará pronto para fornecer previsões.

Cada endpoint tem um status que indica se está pronto para servir previsões em tempo real:

Status	Descrição
`Inactive`	O endpoint não é ativado para fornecer previsões em tempo real e não está consumindo capacidade do Fabric.
`Activating`	O endpoint está sendo configurado para fornecer previsões em tempo real. Nos bastidores, Fabric configura a infraestrutura de contêiner subjacente para hospedar o modelo. Em poucos minutos, o endpoint está ativo.
`Active`	O ponto de extremidade está pronto para atender a predições em tempo real. Nos bastidores, Fabric gerencia a infraestrutura subjacente, aumentando o uso de recursos com base no tráfego de entrada. O tráfego mais alto resulta em maior uso de capacidade de Fabric.
`Deactivating`	O endpoint está sendo desativado, então ele não serve mais previsões em tempo real nem consome capacidade do Fabric. Nos bastidores, Fabric desmonta a infraestrutura de contêiner subjacente.

Observação

Os modelos de ML podem dar suporte a endpoints ativos para até cinco versões ao mesmo tempo. Para processar previsões de uma sexta versão, primeiro você deve desativar um endpoint ativo.

Gerenciar pontos de extremidade de modelo

Para obter uma visão geral dos endpoints ativos do seu modelo, selecione Gerenciar endpoints na faixa de opções da interface. Cada modelo tem um ponto de extremidade padrão personalizável, que atende a previsões de uma versão escolhida. Você pode atualizar a versão padrão usando o seletor suspenso no painel de configurações.

Importante

Defina a propriedade padrão para uma versão ativa se você pretende usá-la. Se você não definir a propriedade padrão, ou se a definir para uma versão inativa, as chamadas para o endpoint padrão falham.

As configurações de endpoint do modelo listam todas as versões com endpoints ativos. Você pode modificar a configuração de suspensão automática de cada dispositivo alternando o botão para Ligado ou Desligado.

Dica

Endpoints ativos com suspensão automática ativada entram em estado de inatividade após cinco minutos sem tráfego. A primeira chamada para acordá-los tem um pequeno atraso. Talvez seja interessante desativar essa propriedade para endpoints em produção.

Consultar pontos de extremidade do modelo para previsões em tempo real

Você pode testar endpoints de modelo instantaneamente usando a experiência low-code no Fabric. Vá para uma versão com um endpoint ativo e selecione Visualizar previsões na faixa de opções da interface. Você pode enviar solicitações de amostra para o endpoint e obter previsões de amostra em tempo real usando campos de formulário que correspondem à assinatura de entrada do modelo.

Selecione Preencher Automático para preencher os campos do formulário com valores aleatórios de amostra. Você pode adicionar mais conjuntos de valores de formulário para testar o endpoint com múltiplas entradas. Selecione Obter previsões para enviar ao endpoint sua solicitação de amostra.

Se você preferir formatar solicitações de exemplo como cargas JSON, use o seletor suspenso para alterar a visualização.

Desativar pontos de extremidade de modelo

Você pode desativar endpoints de modelo diretamente da interface Fabric. Acesse uma versão da qual você não precisa mais para fornecer previsões em tempo real e selecione Desativar endpoint da versão na faixa de opções da interface.

Uma mensagem de toast mostra que o Fabric está desmontando sua implantação ativa, e o status do endpoint muda para Deactivating. O endpoint não pode fornecer previsões em tempo real a menos que você o reative.

Você pode desabilitar endpoints para várias versões ao mesmo tempo no painel de configurações do modelo. Selecione Gerenciar endpoints na faixa de opções da interface e escolha um ou mais endpoints ativos para desativar.

Taxa de consumo

Hospedar endpoints de modelos ativos consome Unidades de Capacidade do Fabric (CUs). Os pontos de extremidade são executados em nós de computação e podem aumentar automaticamente até três nós, dependendo do tráfego de entrada. A cobrança é calculada por nó enquanto o endpoint está ativo. A tabela a seguir mostra o consumo de CU para um endpoint ativo de um modelo de ML.

Operação	Unidade de Medida da Operação	Taxa de consumo
Ponto final do modelo	1 ponto de extremidade de modelo (versão) por segundo por nó	5 segundos de CU

A tabela a seguir mostra exemplos de cenários e suas respectivas taxas de consumo e custos horários.

Cenário	Descrição	Taxa de consumo	Custo por hora
Modelos com pontos de extremidade inativos	Esses modelos não têm pontos de extremidade de versão ativos e nenhuma utilização de recurso associada. Eles não envolvem nenhum custo adicional.	0 segundos de CU	0 Hora CU
Modelos com pontos de extremidade ativos, mas ociosos	Esses modelos têm um ou mais endpoints de versão ativos, mas, na ausência de tráfego regular, todos os endpoints são reduzidos a zero, reduzindo os custos automaticamente.	5 segundos de CU	0,42 Horas CU
Modelos com 1 ponto de extremidade ativo e tráfego baixo constante	Esses modelos têm apenas 1 endpoint de versão ativa servindo previsões, mas sem tráfego suficiente para disparar uma expansão completa. Um nó pode atender a todo o tráfego. Outros endpoints de versão podem estar inativos ou ociosos.	5 segundos de CU	5 horas de unidades de crédito
Modelos com 1 ponto de extremidade ativo e tráfego alto constante	Esses modelos têm apenas 1 endpoint de versão ativo atendendo previsões, com tráfego suficiente para acionar uma expansão horizontal completa. Outros endpoints de versão podem estar inativos ou ociosos.	15 segundos de unidades de computação	15 Horas de Crédito Unidade
Modelos com tráfego constantemente alto e 5 endpoints ativos	Esses modelos têm cinco pontos de extremidade de versão ativos (o limite atual) servindo previsões, cada um com tráfego suficiente para disparar uma expansão completa.	75 segundos de unidade de computação	75 Horas de Créditos Universitários

O aplicativo Fabric Capacity Metrics exibe o uso total da capacidade para operações de endpoint do modelo sob o nome "Model Endpoint". Além disso, usuários podem visualizar um resumo de suas cobranças relativas ao uso do Model Endpoint no item de faturamento "ML Model Endpoint Capacity Usage CU".

A operação de endpoint do modelo é classificada como operações de fundo.

As taxas de consumo estão sujeitas a alterações a qualquer momento. Microsoft usa esforços razoáveis para fornecer aviso por email ou por meio de notificação no produto. As mudanças entram em vigor na data indicada nas Notas de Lançamento da Microsoft ou no Microsoft Fabric Blog. Se qualquer alteração no ponto de extremidade do modelo na Taxa de Consumo do Fabric aumentar materialmente as Unidades de Capacidade (UC) necessárias para uso, os clientes poderão usar as opções de cancelamento disponíveis para a forma de pagamento escolhida.

Gerencie e consulte endpoints programaticamente usando a API REST do endpoint do modelo de ML.
Chame pontos de extremidade de modelo do Dataflow Gen2 para enriquecimento de dados em tempo real.
Gere previsões em lote usando a função PREDICT nos notebooks do Fabric.
Saiba mais sobre model training and experimentation no Fabric.
Perdemos um recurso de que você precisa? Sugira-o no fórum Fabric Ideas.

Comentários

Esta página foi útil?

Last updated on 2026-07-27