Creare endpoint di servizio per modelli personalizzati

Questo articolo descrive come creare endpoint di gestione di modelli che gestiscono modelli personalizzati usando Databricks Model Serving.

La gestione dei modelli offre le opzioni seguenti per la creazione di endpoint:

Interfaccia utente di servizio
REST API (Interfaccia di Programmazione delle Applicazioni REST)
MLflow Deployments SDK

Per la creazione di endpoint che servono modelli di intelligenza artificiale generativi, vedere Creare un modello di base che gestisce gli endpoint.

Requisiti

L'area di lavoro deve trovarsi in un'area supportata.
Se si utilizzano librerie personalizzate o librerie da un server mirror privato con il modello, consultare Usare librerie Python personalizzate con Model Serving prima di creare l'endpoint del modello.
Per creare endpoint con MLflow Deployments SDK, è necessario installare il client di distribuzione MLflow. Per installarlo, eseguire:

import mlflow.deployments

client = mlflow.deployments.get_deploy_client("databricks")

Controllo di accesso

Per informazioni sulle opzioni di controllo di accesso per il modello che gestisce gli endpoint per la gestione degli endpoint, vedere Gestire le autorizzazioni per un endpoint di gestione del modello.

L'identità sotto cui viene eseguito un endpoint di servizio del modello è associata all'autore originale dell'endpoint. Dopo la creazione dell'endpoint, l'identità associata non può essere modificata o aggiornata nell'endpoint. Questa identità e le autorizzazioni associate vengono usate per accedere alle risorse del catalogo Unity per le distribuzioni. Se l'identità non dispone delle autorizzazioni appropriate per accedere alle risorse del catalogo Unity necessarie, è necessario eliminare l'endpoint e ricrearlo in un utente o un'entità servizio che possa accedere a tali risorse del catalogo Unity.

È anche possibile aggiungere variabili di ambiente per archiviare le credenziali per la gestione del modello. Vedere Configurare l'accesso alle risorse dagli endpoint di gestione del modello

Creare un endpoint

Interfaccia utente di gestione

È possibile creare un endpoint per la gestione del modello con l'interfaccia utente Di servizio .

Fare clic su Serve nella barra laterale per visualizzare l'interfaccia utente Di servizio.
Fare clic su Crea endpoint di servizio.

Per i modelli registrati nel Registro modelli dell'area di lavoro o modelli nel Catalogo Unity:

Nel campo Nome specificare un nome per l'endpoint.
- I nomi degli endpoint non possono usare il databricks- prefisso. Questo prefisso è riservato per gli endpoint preconfigurati di Databricks.
Nella sezione Entità servite
1. Fare clic nel campo entità per aprire il modulo Seleziona entità servita .
2. Selezionare My models- Unity Catalog o My models- Model Registry in base alla posizione in cui è registrato il modello. Il modulo viene aggiornato dinamicamente in base alla selezione.
  - Non tutti i modelli sono modelli personalizzati. I modelli possono essere modelli o funzionalità di base per la gestione delle funzionalità.
3. Selezionare il modello e la versione del modello da servire.
4. Selezionare la percentuale di traffico da instradare al modello servito.
5. Selezionare la capacità di calcolo da utilizzare. È possibile usare le risorse di calcolo della CPU o della GPU per i carichi di lavoro. Per altre informazioni sui calcoli GPU disponibili, vedere Tipi di carico di lavoro GPU .
6. Sotto Scalabilità di calcolo, selezionare la dimensione della scalabilità orizzontale di calcolo che corrisponde al numero di richieste che questo modello servito può elaborare contemporaneamente. Questo numero deve essere approssimativamente uguale al tempo di esecuzione del modello QPS x. Per le impostazioni di calcolo definite dal cliente, vedere Limiti di gestione dei modelli.
  1. Le dimensioni disponibili sono Piccole per 0-4 richieste, richieste medio 8-16 e Large per 16-64 richieste.
7. Specificare se l’endpoint deve essere ridimensionato su zero quando non è in uso. La scalabilità a zero non è consigliata per gli endpoint di produzione, perché la capacità non è garantita quando viene ridimensionata su zero. Quando un endpoint viene ridimensionato a zero, si verifica una latenza aggiuntiva, detta anche avvio a freddo, quando l'endpoint scala di nuovo per gestire le richieste.
8. In Configurazione avanzata è possibile:
  - Rinominare l'entità servita per personalizzare la modalità di visualizzazione nell'endpoint.
  - Aggiungere variabili di ambiente per connettersi alle risorse dall'endpoint o registrare il dataframe di ricerca delle funzionalità alla tabella di inferenza dell'endpoint. La registrazione del dataframe di ricerca delle funzionalità richiede MLflow 2.14.0 o versione successiva.
9. (Facoltativo) Per aggiungere altre entità servite all'endpoint, fare clic su Aggiungi entità servita e ripetere i passaggi di configurazione precedenti. È possibile gestire più modelli o versioni del modello da un singolo endpoint e controllare la suddivisione del traffico tra di esse. Per ulteriori informazioni, vedere servire più modelli.
Nella sezione Ottimizzazione del percorso è possibile abilitare l'ottimizzazione del percorso per l'endpoint. L'ottimizzazione della route è consigliata per gli endpoint con requisiti elevati di QPS e velocità effettiva. Vedere Ottimizzazione della route per la gestione degli endpoint.
Nella sezione Gateway di intelligenza artificiale è possibile selezionare le funzionalità di governance da abilitare nell'endpoint. Vedere Introduzione a Mosaic AI Gateway.
Fare clic su Crea. La pagina Gestione degli endpoint viene visualizzata con Lo stato dell'endpoint di servizio visualizzato come Non pronto.

REST API (Interfaccia di Programmazione delle Applicazioni REST)

È possibile creare endpoint usando l'API REST. Vedere POST /api/2.0/serving-endpoints per i parametri di configurazione degli endpoint.

L'esempio seguente crea un endpoint che gestisce la terza versione del modello di my-ads-model registrato nel Registro modelli di Unity Catalog. Per specificare un modello da Unity Catalog, specificare il nome completo del modello, incluso il catalogo padre e lo schema, ad esempio, catalog.schema.example-model. In questo esempio viene usata la concorrenza personalizzata definita con min_provisioned_concurrency e max_provisioned_concurrency. I valori di concorrenza devono essere multipli di 4.


POST /api/2.0/serving-endpoints

{
  "name": "uc-model-endpoint",
  "config":
  {
    "served_entities": [
      {
        "name": "ads-entity",
        "entity_name": "catalog.schema.my-ads-model",
        "entity_version": "3",
        "min_provisioned_concurrency": 4,
        "max_provisioned_concurrency": 12,
        "scale_to_zero_enabled": false
      }
    ]
  }
}

Di seguito è riportato un esempio di risposta. Lo stato dell'endpoint config_update è NOT_UPDATING e il modello servito è in uno stato READY.

{
  "name": "uc-model-endpoint",
  "creator": "user@email.com",
  "creation_timestamp": 1700089637000,
  "last_updated_timestamp": 1700089760000,
  "state": {
    "ready": "READY",
    "config_update": "NOT_UPDATING"
  },
  "config": {
    "served_entities": [
      {
        "name": "ads-entity",
        "entity_name": "catalog.schema.my-ads-model",
        "entity_version": "3",
        "min_provisioned_concurrency": 4,
        "max_provisioned_concurrency": 12,
        "scale_to_zero_enabled": false,
        "workload_type": "CPU",
        "state": {
          "deployment": "DEPLOYMENT_READY",
          "deployment_state_message": ""
        },
        "creator": "user@email.com",
        "creation_timestamp": 1700089760000
      }
    ],
    "config_version": 1
  },
  "tags": [
    {
      "key": "team",
      "value": "data science"
    }
  ],
  "id": "e3bd3e471d6045d6b75f384279e4b6ab",
  "permission_level": "CAN_MANAGE",
  "route_optimized": false
}

MLflow Deployments SDK

Le distribuzioni MLflow forniscono un'API per le attività di creazione, aggiornamento ed eliminazione. Le API per queste attività accettano gli stessi parametri dell'API REST per la gestione degli endpoint. Vedere POST /api/2.0/serving-endpoints per i parametri di configurazione degli endpoint.

L'esempio seguente crea un endpoint che gestisce la terza versione del modello di my-ads-model registrato nel Registro modelli di Unity Catalog. È necessario specificare il nome completo del modello, incluso il catalogo padre e lo schema, ad esempio, catalog.schema.example-model. In questo esempio viene usata la concorrenza personalizzata definita con min_provisioned_concurrency e max_provisioned_concurrency. I valori di concorrenza devono essere multipli di 4.

import mlflow
from mlflow.deployments import get_deploy_client

mlflow.set_registry_uri("databricks-uc")
client = get_deploy_client("databricks")

endpoint = client.create_endpoint(
    name="unity-catalog-model-endpoint",
    config={
        "served_entities": [
            {
                "name": "ads-entity",
                "entity_name": "catalog.schema.my-ads-model",
                "entity_version": "3",
                "min_provisioned_concurrency": 4,
                "max_provisioned_concurrency": 12,
                "scale_to_zero_enabled": False
            }
        ]
    }
)

Client di Workspace

L'esempio seguente illustra come creare un endpoint usando Databricks Workspace Client SDK.

from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput

w = WorkspaceClient()

w.serving_endpoints.create(
    name="uc-model-endpoint",
    config=EndpointCoreConfigInput(
        served_entities=[
            ServedEntityInput(
                name="ads-entity",
                entity_name="catalog.schema.my-ads-model",
                entity_version="3",
                workload_size="Small",
                scale_to_zero_enabled=False
            )
        ]
    )
)

È anche possibile:

Abilitare le tabelle di inferenza per acquisire automaticamente le richieste in ingresso e le risposte in uscita agli endpoint di gestione del modello.
Se nell'endpoint sono abilitate le tabelle di inferenza, è possibile registrare il dataframe di ricerca delle funzionalità nella tabella di inferenza.

Tipi di carico di lavoro GPU

La distribuzione GPU è compatibile con le versioni del pacchetto seguenti:

PyTorch 1.13.0 - 2.0.1
TensorFlow 2.5.0 - 2.13.0
MLflow 2.4.0 e versioni successive

Gli esempi seguenti illustrano come creare endpoint GPU usando metodi diversi.

Interfaccia utente di gestione

Per configurare l'endpoint per i carichi di lavoro GPU con l'interfaccia utente Di servizio , selezionare il tipo di GPU desiderato dall'elenco a discesa Tipo di calcolo durante la creazione dell'endpoint. Seguire gli stessi passaggi in Creare un endpoint, ma selezionare un tipo di carico di lavoro GPU anziché cpu.

REST API (Interfaccia di Programmazione delle Applicazioni REST)

Per distribuire i modelli usando le GPU, includere il campo workload_type nella configurazione dell'endpoint.

POST /api/2.0/serving-endpoints

{
  "name": "gpu-model-endpoint",
  "config": {
    "served_entities": [{
      "entity_name": "catalog.schema.my-gpu-model",
      "entity_version": "1",
      "workload_type": "GPU_SMALL",
      "workload_size": "Small",
      "scale_to_zero_enabled": false
    }]
  }
}

MLflow Deployments SDK

L'esempio seguente illustra come creare un endpoint GPU usando MLflow Deployments SDK.

import mlflow
from mlflow.deployments import get_deploy_client

mlflow.set_registry_uri("databricks-uc")
client = get_deploy_client("databricks")

endpoint = client.create_endpoint(
    name="gpu-model-endpoint",
    config={
        "served_entities": [{
            "entity_name": "catalog.schema.my-gpu-model",
            "entity_version": "1",
            "workload_type": "GPU_SMALL",
            "workload_size": "Small",
            "scale_to_zero_enabled": False
        }]
    }
)

Client di Workspace

L'esempio seguente illustra come creare un endpoint GPU usando Databricks Workspace Client SDK.

from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput

w = WorkspaceClient()

w.serving_endpoints.create(
    name="gpu-model-endpoint",
    config=EndpointCoreConfigInput(
        served_entities=[
            ServedEntityInput(
                entity_name="catalog.schema.my-gpu-model",
                entity_version="1",
                workload_type="GPU_SMALL",
                workload_size="Small",
                scale_to_zero_enabled=False
            )
        ]
    )
)

La tabella seguente riepiloga i tipi di carico di lavoro GPU disponibili supportati.

Tipo di carico di lavoro GPU	Istanze GPU	Memoria GPU
`GPU_SMALL`	1xT4	16 GB
`GPU_LARGE`	1xA100	80 GB
`GPU_LARGE_2`	2xA100	160 GB

Modificare un endpoint modello personalizzato

Dopo aver abilitato un endpoint modello personalizzato, è possibile aggiornare la configurazione di calcolo in base alle esigenze. Questa configurazione è particolarmente utile se sono necessarie risorse aggiuntive per il modello. Le dimensioni del carico di lavoro e la configurazione di calcolo svolgono un ruolo chiave nelle risorse allocate per gestire il modello.

Annotazioni

Gli aggiornamenti alla configurazione dell'endpoint possono non riuscire. Quando si verificano errori, la configurazione attiva esistente rimane effettiva come se l'aggiornamento non si verificasse.

Verificare che l'aggiornamento sia stato applicato correttamente esaminando lo stato dell'endpoint.

Fino a quando la nuova configurazione non è pronta, la configurazione precedente continua a gestire il traffico di stima. Mentre è in corso un aggiornamento, non è possibile eseguire un altro aggiornamento. Tuttavia, è possibile annullare un aggiornamento in corso dall'interfaccia utente Di servizio.

Interfaccia utente di gestione

Dopo aver abilitato un endpoint del modello, selezionare Modifica endpoint per modificare la configurazione di calcolo dell'endpoint.

Pulsante di modifica dell'endpoint

È possibile modificare la maggior parte degli aspetti della configurazione dell'endpoint, ad eccezione del nome dell'endpoint e di alcune proprietà non modificabili.

È possibile annullare un aggiornamento della configurazione in corso selezionando Annulla aggiornamento nella pagina dei dettagli dell'endpoint.

REST API (Interfaccia di Programmazione delle Applicazioni REST)

Di seguito è riportato un esempio di aggiornamento della configurazione dell'endpoint usando l'API REST. Vedere PUT /api/2.0/serving-endpoints/{name}/config.


PUT /api/2.0/serving-endpoints/{name}/config

{
  "name": "unity-catalog-model-endpoint",
  "config":
  {
    "served_entities": [
      {
        "entity_name": "catalog.schema.my-ads-model",
        "entity_version": "5",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      }
    ],
    "traffic_config":
    {
      "routes": [
        {
          "served_model_name": "my-ads-model-5",
          "traffic_percentage": 100
        }
      ]
    }
  }
}

MLflow Deployments SDK

MLflow Deployments SDK usa gli stessi parametri dell'API REST, vedere PUT /api/2.0/serving-endpoints/{name}/config per i dettagli dello schema di richiesta e risposta.

L'esempio di codice seguente usa un modello dal registro dei modelli del catalogo Unity:

import mlflow
from mlflow.deployments import get_deploy_client

mlflow.set_registry_uri("databricks-uc")
client = get_deploy_client("databricks")

endpoint = client.create_endpoint(
  name=f"{endpointname}",
  config={
    "served_entities": [
        {
            "entity_name": f"{catalog}.{schema}.{model_name}",
            "entity_version": "1",
            "workload_size": "Small",
            "scale_to_zero_enabled": True
        }
    ],
    "traffic_config": {
        "routes": [
            {
                "served_model_name": f"{model_name}-1",
                "traffic_percentage": 100
            }
        ]
    }
  }
)

Assegnazione di punteggi a un endpoint del modello

Per assegnare un punteggio al modello, inviare richieste all’endpoint di gestione del modello.

Consulta Punti di servizio delle query per modelli personalizzati.
Vedere Usare i modelli di base.

Risorse aggiuntive

Gestire gli endpoint di servizio del modello.
Modelli esterni in Mosaic AI Model Serving.
Se si preferisce usare Python, è possibile usare il Databricks SDK per il serving in tempo reale.

Esempi di notebook

I notebook seguenti includono modelli registrati di Databricks diversi che è possibile usare per iniziare a usare i modelli che gestiscono gli endpoint. Per altri esempi, vedere Esercitazione: Distribuire ed eseguire query su un modello personalizzato.

Gli esempi di modello possono essere importati nell'area di lavoro seguendo le istruzioni riportate in Importare un notebook. Dopo aver scelto e creato un modello da uno degli esempi, registrarlo nel catalogo unity e quindi seguire i passaggi del flusso di lavoro dell'interfaccia utente per la gestione del modello.

Eseguire il training e registrare un modello scikit-learn per il notebook di gestione dei modelli

Prendi il notebook

Eseguire il training e registrare un modello HuggingFace per il notebook di gestione dei modelli

Prendi il notebook

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-10-30

Condividi tramite

Creare endpoint di servizio per modelli personalizzati

Requisiti

Controllo di accesso

Creare un endpoint

Interfaccia utente di gestione

REST API (Interfaccia di Programmazione delle Applicazioni REST)

MLflow Deployments SDK

Client di Workspace

Tipi di carico di lavoro GPU

Interfaccia utente di gestione

REST API (Interfaccia di Programmazione delle Applicazioni REST)

MLflow Deployments SDK

Client di Workspace

Modificare un endpoint modello personalizzato

Interfaccia utente di gestione

REST API (Interfaccia di Programmazione delle Applicazioni REST)

MLflow Deployments SDK

Assegnazione di punteggi a un endpoint del modello

Risorse aggiuntive

Esempi di notebook

Eseguire il training e registrare un modello scikit-learn per il notebook di gestione dei modelli

Eseguire il training e registrare un modello HuggingFace per il notebook di gestione dei modelli

Commenti e suggerimenti

Risorse aggiuntive