Gestire stime in tempo reale con gli endpoint del modello di Machine Learning (anteprima)

Importante

Questa funzionalità si trova in Anteprima.

Microsoft Fabric consente di gestire stime in tempo reale dai modelli di Machine Learning con endpoint online sicuri, scalabili e facili da usare. Questi endpoint sono disponibili come proprietà predefinite della maggior parte dei modelli di Infrastruttura e non richiedono alcuna configurazione per avviare distribuzioni in tempo reale completamente gestite.

È possibile attivare, configurare ed eseguire query sugli endpoint del modello con un'API REST con connessione pubblica. È anche possibile iniziare direttamente dall'interfaccia fabric, usando un'esperienza a basso codice per attivare immediatamente gli endpoint del modello e le stime di anteprima.

Prerequisiti

Gli endpoint del modello di Machine Learning sono abilitati per impostazione predefinita nel tenant. Se l'amministratore vuole disabilitare questa funzionalità, può disattivare l'opzione del tenant per gli endpoint del modello di Machine Learning nel portale di amministrazione di Fabric.

Limitazioni

Gli endpoint sono attualmente disponibili per un set limitato di versioni del modello di Machine Learning, tra cui Keras, LightGBM, Sklearn e XGBoost.
Gli endpoint non sono attualmente disponibili per i modelli con schemi basati su tensor o senza schemi.

Annotazioni

A partire da gennaio 2026, gli endpoint di Machine Learning ora supportano i modelli con training AutoML. Questa limitazione precedente è stata rimossa.

Inizia con gli endpoint del modello

I modelli di Machine Learning in Fabric sono predefiniti con endpoint online che possono essere usati per gestire stime in tempo reale. Ogni versione del modello registrato ha un URL endpoint dedicato, disponibile nell'intestazione "Dettagli endpoint" nell'interfaccia infrastruttura. Questo URL termina con un sottopercorso che designa tale versione specifica (ad esempio, /versions/1/score).

Gli endpoint del modello hanno le proprietà seguenti:

Proprietà	Descrizione	Predefinita
Versione predefinita	Questa proprietà (`Yes` o `No`) indica se la versione è impostata come predefinita del modello per la gestione delle stime reali. È possibile personalizzare la versione predefinita nelle impostazioni del modello.	`No`
Stato	Questa proprietà indica se l'endpoint è pronto per gestire le stime. Lo stato può essere `Inactive`, `Activating`, `Active`, `Deactivating`o `Failed`. Solo gli endpoint attivi possono gestire stime.	`Inactive`
Sospensione automatica	Questa proprietà (`On` o `Off`) indica se l'endpoint, una volta attivo, deve ridurre l'utilizzo della capacità a zero in assenza di traffico. Se la sospensione automatica è attivata, l'endpoint entra in uno stato di inattività dopo cinque minuti senza richieste in ingresso. La prima chiamata per riattivare un endpoint inattivo comporta un breve ritardo.	`On`

Attivare gli endpoint del modello

È possibile attivare gli endpoint del modello direttamente dall'interfaccia Fabric. Passare alla versione che si vuole gestire le stime in tempo reale e selezionare "Attiva endpoint versione" dalla barra multifunzione.

Un messaggio toast mostra che Fabric sta preparando l’endpoint per servire le predizioni e lo stato dell’endpoint cambia in “Attivazione”. In background, Fabric avvia l’infrastruttura contenitore sottostante per ospitare il modello. Entro pochi minuti, l'endpoint è pronto per gestire le stime.

Ogni endpoint ha uno stato che indica se è pronto per la gestione delle stime in tempo reale:

Stato	Descrizione
`Inactive`	L'endpoint non è attivato per fornire previsioni in tempo reale e non consuma la capacità Fabric.
`Activating`	L'endpoint viene configurato per gestire stime in tempo reale. Dietro le quinte, Fabric configura l'infrastruttura container sottostante per ospitare il modello. Entro pochi minuti, l'endpoint è attivo.
`Active`	L'endpoint è pronto per gestire stime in tempo reale. Dietro le quinte, Fabric gestisce l'infrastruttura sottostante, aumentando l'utilizzo delle risorse in base al traffico in ingresso. Un traffico più elevato comporta un utilizzo più elevato della capacità dell'infrastruttura.
`Deactivating`	L'endpoint viene disattivato, in modo che non gestisca più stime in tempo reale o consumi la capacità di Fabric. Dietro le quinte, Fabric smantella l'infrastruttura dei container sottostante.

Annotazioni

I modelli di Machine Learning possono supportare endpoint attivi per un massimo di cinque versioni contemporaneamente. Per gestire le stime da una sesta versione, è prima necessario disattivare un endpoint attivo.

Gestire gli endpoint del modello

Per una panoramica degli endpoint attivi del modello, selezionare "Gestisci endpoint" dalla barra multifunzione nell'interfaccia. Ogni modello ha un endpoint predefinito personalizzabile, che fornisce stime da una versione scelta. È possibile aggiornare la versione predefinita usando il selettore a discesa nel riquadro delle impostazioni.

Importante

Assicurarsi di impostare la proprietà predefinita su una versione attiva se si prevede di usarla. Se la proprietà predefinita non è impostata o è impostata su una versione inattiva, le chiamate all'endpoint predefinito hanno esito negativo.

Tutte le versioni con endpoint attivi sono elencate nelle impostazioni dell'endpoint del modello. È possibile modificare la proprietà sospensione automatica di ogni endpoint attivando o disattivando l'interruttore.

Suggerimento

Gli endpoint attivi con sospensione automatica attivano uno stato di inattività dopo cinque minuti senza traffico e la prima chiamata per riattivarli comporta un breve ritardo. È possibile disattivare questa proprietà per gli endpoint nell'ambiente di produzione.

Eseguire query sugli endpoint del modello per previsioni in tempo reale

Gli endpoint del modello sono disponibili per il test istantaneo con un'esperienza a basso codice in Fabric. Passare a una versione con un endpoint attivo e selezionare "Anteprima predizioni" dal nastro nell'interfaccia. È possibile inviare richieste di esempio all'endpoint e ottenere stime di esempio in tempo reale usando campi modulo che corrispondono alla firma di input del modello.

Per popolare i campi modulo con valori di esempio casuali, selezionare "Riempimento automatico". È possibile aggiungere altri set di valori di modulo per testare l'endpoint con più input. Selezionare "Ottieni previsioni" per inviare la richiesta di esempio all'endpoint.

Se si preferisce formattare le richieste di esempio come payload JSON, usare il selettore a discesa per modificare la visualizzazione.

Disattivare gli endpoint del modello

È possibile disattivare gli endpoint del modello direttamente dall'interfaccia fabric. Accedere a una versione che non è più necessario servire per stime in tempo reale e selezionare "Disattiva endpoint della versione" dalla barra multifunzione nell'interfaccia.

Un messaggio di tipo avviso indica che Fabric sta smantellando la tua distribuzione attiva e lo stato dell'endpoint cambia in "Disattivazione". L'endpoint non è più in grado di gestire previsioni in tempo reale, a meno che non venga riattivato.

È possibile disattivare gli endpoint per più versioni contemporaneamente dal riquadro delle impostazioni del modello. Selezionare "Gestisci endpoint" dalla barra multifunzione nell'interfaccia e scegliere uno o più endpoint attivi da disattivare.

Tasso di consumo

L'hosting di endpoint di modelli attivi utilizza unità di capacità Fabric (CU). Gli endpoint vengono eseguiti nei nodi di calcolo e possono aumentare automaticamente fino a tre nodi in base al traffico in ingresso. La fatturazione viene calcolata per nodo mentre un endpoint è attivo. La tabella seguente illustra il consumo di cu per un endpoint del modello di Machine Learning attivo.

Operazione	Unità di Misura Operativa	tasso di consumo
endpoint del modello	1 endpoint del modello (versione) al secondo per nodo	5 secondi CU

La tabella seguente illustra gli scenari di esempio e le tariffe di consumo corrispondenti e i costi orari.

Scenario	Descrizione	tasso di consumo	Costo orario
Modelli con endpoint inattivi	Questi modelli non hanno endpoint di versione attivi e nessun utilizzo delle risorse associato. Non comportano costi aggiuntivi.	0 secondi cu	0 ora cu
Modelli con endpoint attivi ma inattivi	Questi modelli hanno uno o più endpoint di versione attivi, ma, senza traffico normale, tutti sono stati ridimensionati a zero, riducendo automaticamente i costi.	5 secondi CU	Ore CU 0.42
Modelli con 1 endpoint attivo e traffico basso costante	Questi modelli hanno solo 1 endpoint di versione attiva che gestisce le previsioni, ma senza traffico sufficiente per attivare un aumento completo del numero di istanze. Un nodo può gestire tutto il traffico. Altri endpoint di versione possono essere inattivi o in attesa.	5 secondi CU	5 ore di credito universitario
Modelli con 1 endpoint attivo e traffico elevato costante	Questi modelli hanno solo 1 endpoint di versione attiva che gestisce le predizioni, con un traffico sufficiente per attivare un'espansione completa. Altri endpoint di versione possono essere inattivi o in attesa.	15 secondi CU	15 ore di Crediti Universitari
Modelli con 5 endpoint attivi e traffico elevato costante	Questi modelli dispongono di 5 endpoint di versione attivi (il limite corrente) che forniscono previsioni, ognuno con traffico sufficiente per attivare una completa scalabilità verso l'esterno.	75 secondi CU	75 ore di Crediti Universitari

L'app Fabric Capacity Metrics visualizza l'utilizzo totale della capacità per le operazioni degli endpoint dei modelli indicato come "Endpoint del modello". Inoltre, gli utenti possono visualizzare un riepilogo degli addebiti di fatturazione per l'utilizzo dell'endpoint del modello nell'elemento di fatturazione "ML Model Endpoint Capacity Usage CU".

L'operazione dell'endpoint del modello è classificata come operazioni in background.

I tassi di consumo sono soggetti a variazioni in qualsiasi momento. Microsoft usa sforzi ragionevoli per fornire comunicazioni tramite posta elettronica o tramite notifica nel prodotto. Le modifiche saranno valide alla data indicata nelle Note sulla versione Microsoft o nel blog di Microsoft Fabric. Se qualsiasi modifica all'endpoint del modello nel tasso di consumo della rete aumenta in modo significativo le unità di capacità (CU) necessarie per l'uso, i clienti possono usare le opzioni di annullamento disponibili per il metodo di pagamento scelto.

Gestire ed eseguire query sugli endpoint a livello di codice con l'API REST dell'endpoint del modello di Machine Learning.
Chiamare gli endpoint del modello da Dataflow Gen2 per l'arricchimento dei dati in tempo reale.
Generare previsioni batch con la funzione PREDICT nei notebook di Fabric.
Ulteriori informazioni sull'addestramento e sulla sperimentazione dei modelli in Fabric.
Abbiamo perso una funzionalità necessaria? Suggeriscilo nel forum Fabric Ideas.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-12-23