Condividi tramite


Gestire stime in tempo reale con gli endpoint del modello di Machine Learning (anteprima)

Importante

Questa funzionalità si trova in Anteprima.

Microsoft Fabric consente di gestire stime in tempo reale dai modelli di Machine Learning con endpoint online sicuri, scalabili e facili da usare. Questi endpoint sono disponibili come proprietà predefinite della maggior parte dei modelli di Infrastruttura e non richiedono alcuna configurazione per avviare distribuzioni in tempo reale completamente gestite.

È possibile attivare, configurare ed eseguire query sugli endpoint del modello con un'API REST con connessione pubblica. È anche possibile iniziare direttamente dall'interfaccia fabric, usando un'esperienza a basso codice per attivare immediatamente gli endpoint del modello e le stime di anteprima.

Screenshot che mostra un modello di Machine Learning in Fabric con una proprietà endpoint predefinita per la gestione delle stime in tempo reale.

Prerequisiti

Limitazioni

  • Gli endpoint sono attualmente disponibili per un set limitato di versioni del modello di Machine Learning, tra cui Keras, LightGBM, Sklearn e XGBoost.
  • Gli endpoint non sono attualmente disponibili per i modelli con schemi basati su tensor o senza schemi.
  • Gli endpoint non sono attualmente disponibili per i modelli con dipendenze da pacchetti privati o interni.

Inizia con gli endpoint del modello

I modelli di Machine Learning in Fabric sono predefiniti con endpoint online che possono essere usati per gestire stime in tempo reale. Ogni versione del modello registrato ha un URL endpoint dedicato, disponibile nell'intestazione "Dettagli endpoint" nell'interfaccia infrastruttura. Questo URL termina con un sottopercorso che designa tale versione specifica (ad esempio, /versions/1/score).

Screenshot che mostra le proprietà di un endpoint del modello di Machine Learning, che può essere usato per gestire stime in tempo reale.

Gli endpoint del modello hanno le proprietà seguenti:

Proprietà Descrizione Predefinita
Versione predefinita Questa proprietà (Yes o No) indica se la versione è impostata come predefinita del modello per la gestione delle stime reali. È possibile personalizzare la versione predefinita nelle impostazioni del modello. No
Stato Questa proprietà indica se l'endpoint è pronto per gestire le stime. Lo stato può essere Inactive, Activating, Active, Deactivatingo Failed. Solo gli endpoint attivi possono gestire stime. Inactive
Sospensione automatica Questa proprietà (On o Off) indica se l'endpoint, una volta attivo, deve ridurre l'utilizzo della capacità a zero in assenza di traffico. Se la sospensione automatica è attivata, l'endpoint entra in uno stato di inattività dopo cinque minuti senza richieste in ingresso. La prima chiamata per riattivare un endpoint inattivo comporta un breve ritardo. On

Attivare gli endpoint del modello

È possibile attivare gli endpoint del modello direttamente dall'interfaccia Fabric. Passare alla versione che si vuole gestire le stime in tempo reale e selezionare "Attiva endpoint versione" dalla barra multifunzione.

Screenshot che mostra come attivare un endpoint del modello di Machine Learning dall'interfaccia fabric.

Un messaggio toast mostra che Fabric sta preparando l’endpoint per servire le predizioni e lo stato dell’endpoint cambia in “Attivazione”. In background, Fabric avvia l’infrastruttura contenitore sottostante per ospitare il modello. Entro pochi minuti, l'endpoint è pronto per gestire le stime.

Screenshot che mostra un endpoint del modello di Machine Learning che si sta attivando.

Ogni endpoint ha uno stato che indica se è pronto per la gestione delle stime in tempo reale:

Stato Descrizione
Inactive L'endpoint non è attivato per fornire previsioni in tempo reale e non consuma la capacità Fabric.
Activating L'endpoint viene configurato per gestire stime in tempo reale. Dietro le quinte, Fabric configura l'infrastruttura container sottostante per ospitare il modello. Entro pochi minuti, l'endpoint è attivo.
Active L'endpoint è pronto per gestire stime in tempo reale. Dietro le quinte, Fabric gestisce l'infrastruttura sottostante, aumentando l'utilizzo delle risorse in base al traffico in ingresso. Un traffico più elevato comporta un utilizzo più elevato della capacità dell'infrastruttura.
Deactivating L'endpoint viene disattivato, in modo che non gestisca più stime in tempo reale o consumi la capacità di Fabric. Dietro le quinte, Fabric smantella l'infrastruttura dei container sottostante.

Annotazioni

I modelli di Machine Learning possono supportare endpoint attivi per un massimo di cinque versioni contemporaneamente. Per gestire le stime da una sesta versione, è prima necessario disattivare un endpoint attivo.

Gestire gli endpoint del modello

Per una panoramica degli endpoint attivi del modello, selezionare "Gestisci endpoint" dalla barra multifunzione nell'interfaccia. Ogni modello ha un endpoint predefinito personalizzabile, che fornisce stime da una versione scelta. È possibile aggiornare la versione predefinita usando il selettore a discesa nel riquadro delle impostazioni.

Screenshot che mostra l'URL dell'endpoint del modello di Machine Learning predefinito, che è possibile configurare per gestire le stime da una versione specifica.

Importante

Assicurarsi di impostare la proprietà predefinita su una versione attiva se si prevede di usarla. Se la proprietà predefinita non è impostata o è impostata su una versione inattiva, le chiamate all'endpoint predefinito hanno esito negativo.

Tutte le versioni con endpoint attivi sono elencate nelle impostazioni dell'endpoint del modello. È possibile modificare la proprietà sospensione automatica di ogni endpoint attivando o disattivando l'interruttore.

Screenshot che mostra come modificare la proprietà sospensione automatica negli endpoint del modello di Machine Learning.

Suggerimento

Gli endpoint attivi con sospensione automatica attivano uno stato di inattività dopo cinque minuti senza traffico e la prima chiamata per riattivarli comporta un breve ritardo. È possibile disattivare questa proprietà per gli endpoint nell'ambiente di produzione.

Eseguire query sugli endpoint del modello per previsioni in tempo reale

Gli endpoint del modello sono disponibili per il test istantaneo con un'esperienza a basso codice in Fabric. Passare a una versione con un endpoint attivo e selezionare "Anteprima predizioni" dal nastro nell'interfaccia. È possibile inviare richieste di esempio all'endpoint e ottenere stime di esempio in tempo reale usando campi modulo che corrispondono alla firma di input del modello.

Screenshot che mostra l'esperienza di anteprima predefinita per ottenere stime di esempio da un endpoint del modello di Machine Learning attivo.

Per popolare i campi modulo con valori di esempio casuali, selezionare "Riempimento automatico". È possibile aggiungere altri set di valori di modulo per testare l'endpoint con più input. Selezionare "Ottieni previsioni" per inviare la richiesta di esempio all'endpoint.

Screenshot che mostra la visualizzazione basata su form per l'invio di richieste di esempio a un endpoint del modello di Machine Learning attivo.

Se si preferisce formattare le richieste di esempio come payload JSON, usare il selettore a discesa per modificare la visualizzazione.

Screenshot che mostra la visualizzazione basata su JSON per l'invio di richieste di esempio a un endpoint del modello di Machine Learning attivo.

Disattivare gli endpoint del modello

È possibile disattivare gli endpoint del modello direttamente dall'interfaccia fabric. Accedere a una versione che non è più necessario servire per stime in tempo reale e selezionare "Disattiva endpoint della versione" dalla barra multifunzione nell'interfaccia.

Screenshot che mostra come disattivare un endpoint del modello di Machine Learning dall'interfaccia fabric.

Un messaggio di tipo avviso indica che Fabric sta smantellando la tua distribuzione attiva e lo stato dell'endpoint cambia in "Disattivazione". L'endpoint non è più in grado di gestire previsioni in tempo reale, a meno che non venga riattivato.

Screenshot che mostra un endpoint del modello di Machine Learning che ora si sta disattivando.

È possibile disattivare gli endpoint per più versioni contemporaneamente dal riquadro delle impostazioni del modello. Selezionare "Gestisci endpoint" dalla barra multifunzione nell'interfaccia e scegliere uno o più endpoint attivi da disattivare.

Screenshot che mostra come disattivare più endpoint del modello di Machine Learning contemporaneamente dall'interfaccia fabric.

Tasso di consumo

L'hosting di endpoint di modelli attivi utilizza unità di capacità Fabric (CU). Gli endpoint vengono eseguiti nei nodi di calcolo e possono aumentare automaticamente fino a tre nodi in base al traffico in ingresso. La fatturazione viene calcolata per nodo mentre un endpoint è attivo. La tabella seguente illustra il consumo di cu per un endpoint del modello di Machine Learning attivo.

Operazione Unità di Misura Operativa tasso di consumo
endpoint del modello 1 endpoint del modello (versione) al secondo per nodo 5 secondi CU

La tabella seguente illustra gli scenari di esempio e le tariffe di consumo corrispondenti e i costi orari.

Scenario Descrizione tasso di consumo Costo orario
Modelli con endpoint inattivi Questi modelli non hanno endpoint di versione attivi e nessun utilizzo delle risorse associato. Non comportano costi aggiuntivi. 0 secondi cu 0 ora cu
Modelli con endpoint attivi ma inattivi Questi modelli hanno uno o più endpoint di versione attivi, ma, senza traffico normale, tutti sono stati ridimensionati a zero, riducendo automaticamente i costi. 5 secondi CU Ore CU 0.42
Modelli con 1 endpoint attivo e traffico basso costante Questi modelli hanno solo 1 endpoint di versione attiva che gestisce le previsioni, ma senza traffico sufficiente per attivare un aumento completo del numero di istanze. Un nodo può gestire tutto il traffico. Altri endpoint di versione possono essere inattivi o in attesa. 5 secondi CU 5 ore di credito universitario
Modelli con 1 endpoint attivo e traffico elevato costante Questi modelli hanno solo 1 endpoint di versione attiva che gestisce le predizioni, con un traffico sufficiente per attivare un'espansione completa. Altri endpoint di versione possono essere inattivi o in attesa. 15 secondi CU 15 ore di Crediti Universitari
Modelli con 5 endpoint attivi e traffico elevato costante Questi modelli dispongono di 5 endpoint di versione attivi (il limite corrente) che forniscono previsioni, ognuno con traffico sufficiente per attivare una completa scalabilità verso l'esterno. 75 secondi CU 75 ore di Crediti Universitari

L'app Fabric Capacity Metrics visualizza l'utilizzo totale della capacità per le operazioni degli endpoint dei modelli indicato come "Endpoint del modello". Inoltre, gli utenti possono visualizzare un riepilogo degli addebiti di fatturazione per l'utilizzo dell'endpoint del modello nell'elemento di fatturazione "ML Model Endpoint Capacity Usage CU".

L'operazione dell'endpoint del modello è classificata come operazioni in background.

I tassi di consumo sono soggetti a variazioni in qualsiasi momento. Microsoft usa sforzi ragionevoli per fornire comunicazioni tramite posta elettronica o tramite notifica nel prodotto. Le modifiche saranno valide alla data indicata nelle Note sulla versione Microsoft o nel blog di Microsoft Fabric. Se qualsiasi modifica all'endpoint del modello nel tasso di consumo della rete aumenta in modo significativo le unità di capacità (CU) necessarie per l'uso, i clienti possono usare le opzioni di annullamento disponibili per il metodo di pagamento scelto.