Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
Este recurso está em pré-visualização.
O Microsoft Fabric permite que você forneça previsões em tempo real de modelos de ML com pontos de extremidade online seguros, escaláveis e fáceis de usar. Esses endpoints estão disponíveis como propriedades internas na maioria dos modelos Fabric e não exigem configuração para começar implantações totalmente geridas em tempo real.
Você pode ativar, configurar e consultar pontos de extremidade de modelo com uma API REST voltada para o público. Você também pode começar diretamente da Interface do Fabric, usando uma experiência de desenvolvimento com pouco código para ativar pontos de extremidade de modelo e visualizar previsões instantaneamente.
Pré-requisitos
- Para fornecer previsões em tempo real, o administrador precisa ativar a opção de inquilino para endpoints do modelo de ML no portal de administração do Fabric.
Limitações
- Os endpoints estão atualmente disponíveis para um conjunto limitado de modelos de ML, incluindo Keras, LightGBM, Sklearn e XGBoost.
- Atualmente, os pontos de extremidade não estão disponíveis para modelos com esquemas baseados em tensores ou sem esquemas.
Comece com os endpoints do modelo
Os modelos de ML no Fabric vêm pré-configurados com endpoints online que podem ser usados para fornecer previsões em tempo real. Cada versão do modelo registado tem uma URL de endpoint dedicada, que pode ser encontrada na secção "Endpoint details" na interface do Fabric. Este URL termina com um subcaminho que designa essa versão específica (por exemplo, /versions/1/score).
Os pontos de extremidade do modelo têm as seguintes propriedades:
| Property | Descrição | Predefinição |
|---|---|---|
| Versão padrão | Esta propriedade (Yes ou No) indica se a versão está definida como padrão do modelo para servir previsões reais. Você pode personalizar a versão padrão nas configurações do modelo. |
No |
| Situação | Esta propriedade indica se o ponto de extremidade está pronto para servir previsões. O status pode ser Inactive, Activating, Active, Deactivating, ou Failed. Apenas pontos de extremidade ativos podem fornecer previsões. |
Inactive |
| Suspensão automática | Esta propriedade (On ou Off) indica se o endpoint, uma vez ativo, deve reduzir o uso da capacidade para zero na ausência de tráfego. Se a suspensão automática estiver ativada, o endpoint entrará em um estado inativo após cinco minutos sem solicitações de entrada. A primeira chamada para despertar um endpoint ocioso envolve um pequeno atraso. |
On |
Ativar pontos de extremidade do modelo
Você pode ativar os pontos de extremidade do modelo diretamente da interface do Fabric. Navegue até a versão para a qual gostaria de fornecer previsões em tempo real e selecione "Ativar endpoint da versão" na barra de ferramentas.
Uma mensagem de toast mostra que o Fabric está preparando o seu endpoint para servir previsões, e o estado do endpoint muda para "Ativando". Nos bastidores, o Fabric inicia a infraestrutura de contêiner subjacente para hospedar o seu modelo. Em poucos minutos, seu endpoint estará pronto para atender previsões.
Cada ponto de extremidade tem um status que indica se está pronto para servir previsões em tempo real:
| Situação | Descrição |
|---|---|
Inactive |
O ponto de extremidade não está ativado para servir previsões em tempo real e não está consumindo capacidade do Fabric. |
Activating |
O endpoint está a ser configurado para servir previsões em tempo real. Nos bastidores, o Fabric configura a infraestrutura de contêiner subjacente para hospedar o modelo. Em poucos minutos, o ponto de extremidade está ativo. |
Active |
O endpoint está pronto para servir previsões em tempo real. Nos bastidores, o Fabric gerencia a infraestrutura subjacente, ampliando o uso de recursos com base no tráfego de entrada. Maior tráfego resulta em maior uso da capacidade da malha. |
Deactivating |
O ponto de extremidade está sendo desativado, para que não sirva mais para previsões em tempo real ou consuma capacidade de malha. Nos bastidores, o Fabric desmonta a infraestrutura de contêineres subjacente. |
Observação
Os modelos de ML podem suportar endpoints ativos para até cinco versões ao mesmo tempo. Para fornecer previsões de uma sexta versão, deve primeiro desativar um endpoint ativo.
Gerenciar pontos de extremidade de modelo
Para obter uma visão geral dos pontos de extremidade ativos do seu modelo, selecione "Gerenciar pontos de extremidade" na faixa de opções na interface. Cada modelo tem um ponto de extremidade padrão personalizável, que serve previsões de uma versão que você escolher. Você pode atualizar a versão padrão usando o seletor suspenso no painel de configurações.
Importante
Certifique-se de definir a propriedade padrão para uma versão ativa se você planeja usá-la. Se a propriedade padrão não estiver definida ou estiver definida como uma versão inativa, as chamadas para o ponto de extremidade padrão falharão.
Todas as versões com pontos de extremidade ativos são listadas nas configurações de ponto de extremidade do modelo. Você pode modificar a propriedade de suspensão automática de cada ponto final alternando o switcher para "On" ou "Off".
Sugestão
Os terminais ativos com suspensão automática ativada ficam inativos após cinco minutos sem tráfego, e a primeira chamada para acordá-los envolve uma pequena demora. Talvez você queira desativar essa propriedade para pontos de extremidade em produção.
Consulta de endpoints de modelos para previsões em tempo real
Os endpoints de modelo estão disponíveis para testes instantâneos com uma experiência de baixo código no Fabric. Navegue até uma versão com um ponto de extremidade ativo e selecione "Visualizar previsões" na barra de ferramentas na interface. Você pode enviar pedidos de exemplo para o ponto de extremidade, e obter previsões de exemplo em tempo real, usando campos de formulário que correspondem à assinatura de entrada do modelo.
Para preencher os campos do formulário com valores de amostra aleatórios, selecione "Preenchimento automático". Você pode adicionar mais conjuntos de valores de formulário para testar o ponto de extremidade com várias entradas. Selecione "Obter previsões" para enviar ao endpoint sua solicitação de amostra.
Se preferir formatar solicitações de exemplo como cargas JSON, use o seletor suspenso para alterar a exibição.
Desativar pontos de extremidade do modelo
Você pode desativar os pontos de extremidade do modelo diretamente da interface do Fabric. Navegue até uma versão que você não precisa mais para fornecer previsões em tempo real e selecione "Desativar ponto de extremidade da versão" na faixa de opções na interface.
Uma mensagem de alerta mostra que a plataforma Fabric está desmontando a sua implantação ativa e o estado do ponto de extremidade muda para "Desativando". O ponto de extremidade não é mais capaz de executar previsões em tempo real, a menos que você o reative.
Pode desativar os endpoints simultaneamente para várias versões no painel de definições do modelo. Selecione "Gerenciar endpoints" na faixa de opções na interface e escolha um ou mais endpoints ativos para desativar.
Taxa de consumo
Hospedar pontos de extremidade de modelo ativos consome unidades de capacidade de malha (CUs). Os endpoints são executados em nós de computação e podem escalar automaticamente até três nós com base no tráfego de entrada. O faturamento é calculado por cada nó enquanto um endpoint está ativo. A tabela abaixo mostra o consumo de CU para um endpoint ativo do modelo de Aprendizagem Automática.
| Funcionamento | Unidade de Medida de Operação | Taxa de consumo |
|---|---|---|
| ponto final do modelo | 1 endpoint de modelo (versão) por segundo por nó | 5 segundos CU |
A tabela abaixo mostra cenários de exemplo e suas taxas de consumo e custos horários correspondentes.
| Cenário | Descrição | Taxa de consumo | Custo por hora |
|---|---|---|---|
| Modelos com endpoints inativos | Esses modelos não têm pontos de extremidade de versão ativa e nenhuma utilização de recursos associada. Não implicam custos adicionais. | 0 segundos CU | 0 Hora CU |
| Modelos com endpoints ativos, mas ociosos | Esses modelos têm um ou mais endpoints de versão ativos, mas, sem tráfego regular, todos foram dimensionados para zero, reduzindo os custos automaticamente. | 5 segundos CU | 0.42 Horas CU |
| Modelos com 1 Ponto Final Ativo e Tráfego Baixo Constante | Esses modelos têm apenas 1 ponto de extremidade com uma versão ativa fornecendo previsões, mas sem tráfego suficiente para acionar uma ampliação completa. Um nó pode atender a todo o tráfego. Outros endpoints de versão podem estar inativos ou em repouso. | 5 segundos CU | 5 Horas CU |
| Modelos com 1 Ponto Final Ativo e Tráfego Alto Constante | Esses modelos têm apenas 1 ponto de extremidade de versão ativa servindo previsões, com tráfego suficiente para acionar uma expansão completa. Outros pontos de extremidade de versão podem estar inativos ou ociosos. | 15 segundos CU | 15 Horas de Créditos Universitários |
| Modelos com 5 terminais ativos e tráfego elevado constante | Esses modelos têm 5 pontos de extremidade de versão ativa (o limite atual) servindo previsões, cada um com tráfego suficiente para acionar uma expansão completa. | 75 segundos CU | 75 Horas de Créditos Uteis |
A aplicação Fabric Capacity Metrics exibe o uso total da capacidade para operações de endpoint do modelo sob o nome "Model Endpoint". Além disso, os usuários podem visualizar um resumo de suas cobranças pelo uso do Model Endpoint no item de faturamento "ML Model Endpoint Capacity Usage".
A operação de ponto de extremidade do modelo é classificada como operações em segundo plano.
As taxas de consumo estão sujeitas a alterações a qualquer momento. A Microsoft envida todos os esforços razoáveis para fornecer um aviso por correio eletrónico ou através de notificação no produto. As alterações entrarão em vigor na data indicada nas Notas de Versão da Microsoft ou no Blog do Microsoft Fabric. Se qualquer alteração no ponto de extremidade do modelo na Taxa de Consumo de Fabric aumentar significativamente as Unidades de Capacidade (UC) necessárias para a utilização, os clientes poderão usar as opções de cancelamento disponíveis para o método de pagamento escolhido.
Conteúdo relacionado
- Gerencie e consulte pontos de extremidade programaticamente com a API REST de ponto de extremidade do modelo de ML.
- Gere previsões em lote com a
PREDICTfunção em blocos de anotações de malha. - Saiba mais sobre treinamento e experimentação de modelos no Fabric.
- Perdemos um recurso que você precisa? Sugira a sua ideia no fórum Fabric Ideas.