Distribuire modelli utilizzando Mosaic AI Model Serving

2025-06-02

Questo articolo descrive Mosaic AI Model Serving, la soluzione Databricks per la distribuzione di modelli di intelligenza artificiale e Machine Learning per la gestione in tempo reale e l'inferenza batch.

Che cos'è Mosaic AI Model Serving?

Mosaic AI Model Serving offre un'interfaccia unificata per distribuire, gestire ed eseguire query sui modelli di intelligenza artificiale per l'inferenza batch e in tempo reale. Ogni modello usato è disponibile come API REST che è possibile integrare nell'applicazione Web o client.

Model Serving offre un servizio a disponibilità elevata e bassa latenza per la distribuzione di modelli. Il servizio aumenta o riduce automaticamente le prestazioni per soddisfare le modifiche della domanda, risparmiando i costi dell'infrastruttura e al tempo stesso ottimizzando le prestazioni della latenza. Questa funzionalità usa il calcolo serverless. Per altri dettagli, consultare la pagina dei prezzi Model Serving.

Model Serving offre un'API REST unificata e un'API di distribuzione MLflow per attività CRUD ed esecuzione di query. Fornisce inoltre una singola interfaccia utente per gestire tutti i modelli e i rispettivi endpoint di gestione. È anche possibile accedere ai modelli direttamente da SQL usando Funzioni di intelligenza artificiale per semplificare l'integrazione nei flussi di lavoro di analisi.

Le funzioni di intelligenza artificiale e la gestione dei modelli sono strettamente integrate per gli scenari di inferenza batch. È possibile usare qualsiasi funzione di intelligenza artificiale specifica dell'attività o ai-query nelle pipeline di inferenza batch. Se si sceglie di usare un modello con provisioning preliminare ospitato e gestito da Databricks, non è necessario configurare manualmente un modello che gestisce l'endpoint.

Per iniziare, vedere le guide seguenti:

Per l'esecuzione dell'inferenza batch, vedere Eseguire l'inferenza LLM batch usando funzioni di intelligenza artificiale.
Per un'esercitazione introduttiva su come gestire modelli personalizzati in Azure Databricks per l'inferenza in tempo reale, vedere Esercitazione: Distribuire ed eseguire query su un modello personalizzato.
Per un'esercitazione introduttiva su come eseguire query su un modello di base in Databricks per l'inferenza in tempo reale, vedere Introduzione all'esecuzione di query su LLMs in Databricks.

Modelli che è possibile distribuire

La gestione del modello supporta l'inferenza in tempo reale e batch per i tipi di modello seguenti:

Modelli personalizzati. Si tratta di modelli Python inclusi nel formato MLflow. Possono essere registrati nel catalogo unity o nel registro dei modelli dell'area di lavoro. Gli esempi includono i modelli scikit-learn, XGBoost, PyTorch e Hugging Face transformer.
- Il servizio dell'agente è supportato come modello personalizzato. Vedere Distribuire un agente per applicazioni di intelligenza artificiale generative
Modelli di base.
- modelli di base ospitati da Databricks come Meta Llama. Questi modelli sono disponibili usando le API Foundation Model. Questi modelli sono architetture di modelli di base curate che supportano l'inferenza ottimizzata. I modelli di base, come Meta-Llama-3.3-70B-Instruct, GTE-Large e Mistral-7B, sono disponibili per l'uso immediato con prezzi con pagamento in base al token, e carichi di lavoro che richiedono garanzie di prestazioni e varianti di modello ottimizzate possono essere distribuite con velocità effettiva garantita dal provisioning.
- Modelli fondamentali ospitati all'esterno di Databricks come GPT-4 di OpenAI. Questi modelli sono accessibili usando modelli esterni. Gli endpoint che servono questi modelli possono essere regolati centralmente da Azure Databricks, in modo da semplificare l'uso e la gestione di vari provider LLM, ad esempio OpenAI e Anthropic, all'interno dell'organizzazione.

Nota

È possibile interagire con i modelli linguistici di grandi dimensioni supportati usando AI Playground. L'AI Playground è un ambiente simile a una chat in cui è possibile testare, richiedere e confrontare i modelli di linguaggio di grandi dimensioni. Questa funzionalità è disponibile nell'area di lavoro di Azure Databricks.

Perché usare Model Serving?

Implementare ed eseguire query su qualsiasi modello: Model Serving fornisce un'interfaccia unificata che consente di gestire tutti i modelli in un'unica posizione ed eseguirne query con una singola API, indipendentemente dal fatto che siano ospitati in Databricks o esternamente. Questo approccio semplifica il processo di sperimentazione con, personalizzazione e distribuzione di modelli nell'ambiente di produzione in diversi cloud e provider.
Personalizzare in modo sicuro i modelli con dati privati: Costruito su una piattaforma di data intelligence, Model Serving semplifica l'integrazione di funzionalità e incorporamenti in modelli tramite l'integrazione nativa con la Feature Store di Databricks e la Vector Search dell’IA Mosaic. Per migliorare ulteriormente l'accuratezza e la comprensione contestuale, i modelli possono essere ottimizzati con dati proprietari e implementati senza problemi in Model Serving.
Governance e monitoraggio dei modelli: l'interfaccia utente di gestione consente di gestire tutti gli endpoint del modello in un'unica posizione, inclusi quelli ospitati esternamente. È possibile gestire le autorizzazioni, tenere traccia e impostare i limiti di utilizzo e monitorare la qualità di tutti i tipi di modelli usando gateway di intelligenza artificiale. In questo modo è possibile democratizzare l'accesso a SaaS e aprire LLMs all'interno dell'organizzazione, al contempo assicurando la protezione appropriata.
Ridurre i costi con inferenza ottimizzata e scalabilità rapida: Databricks ha implementato una gamma di ottimizzazioni per garantire la velocità effettiva e la latenza migliori per i modelli di grandi dimensioni. Gli endpoint aumentano o riducono automaticamente le prestazioni per soddisfare le modifiche della domanda, risparmiando i costi dell'infrastruttura e ottimizzando le prestazioni della latenza. Monitorare i costi di gestione dei modelli.
- Per i carichi di lavoro sensibili alla latenza o che comportano un numero elevato di query al secondo, Databricks consiglia di usare l'ottimizzazione della route sugli endpoint del modello personalizzato. Contatta il team dell'account Databricks per assicurarti che l'area di lavoro sia abilitata per una scalabilità elevata.

Offrire affidabilità e sicurezza a Model Serving: Model Serving è progettata per l'uso di produzione a disponibilità elevata e a bassa latenza e può supportare più di 25.000 query al secondo con una latenza inferiore a 50 ms. I carichi di lavoro sono protetti da più livelli di sicurezza, garantendo un ambiente sicuro e affidabile anche per le attività più sensibili. È possibile controllare l'accesso di rete agli endpoint di gestione dei modelli configurando i criteri di rete. Vedere Gestire i criteri di rete per il controllo in uscita serverless.

Nota

Model Serving non fornisce patch di sicurezza alle immagini del modello esistenti a causa del rischio di destabilizzazione nelle implementazioni di produzione. A contenere le patch più recenti sarà una nuova immagine del modello creata da una nuova versione. Per maggiori informazioni, contattare il team di account Databricks.

Requisiti

Modello registrato nel Catalogo di Unity o nel Registro dei modelli dell'area di lavoro .
Le autorizzazioni per i modelli registrati sono come descritte in Gestire gli ACL degli endpoint.
- MLflow 1.29 o versione successiva.
Se utilizzi Azure Private Link per rispettare le regole di ingresso relative alla rete configurate nell'area di lavoro, Azure Private Link è supportato solo per gli endpoint di servizio dei modelli che utilizzano la velocità effettiva con provisioning o per gli endpoint che gestiscono modelli personalizzati. Vedere Configurare la connettività privata alle risorse di Azure.

Abilitare Model Serving per l'area di lavoro

Non sono necessari passaggi aggiuntivi per abilitare Model Serving nell'area di lavoro.

Limitazioni e disponibilità in base all'area geografica

Mosaic AI Model Serving impone limiti predefiniti per garantire prestazioni affidabili. ConsultareLimiti e aree di disponibilità di Model Serving. Hai commenti e suggerimenti su questi limiti o un endpoint in un'area non supportata? Rivolgiti al tuo team Databricks.

Protezione dei dati nella gestione dei modelli

Databricks prende sul serio la sicurezza dei dati. Databricks comprende l'importanza dei dati analizzati usando Mosaic AI Model Serving e implementa i seguenti controlli di sicurezza per proteggere i dati.

Ogni richiesta di un cliente a Model Serving è isolata logicamente, autenticata e autorizzata.
Mosaic AI Model Serve crittografa tutti i dati inattivi (AES-256) e in transito (TLS 1.2+).

Negli account a pagamento, per eseguire il training di qualsiasi modello o migliorare i servizi di Databricks, Mosaic AI Model Serving non usa né gli input utente inviati al servizio, né gli output dal servizio.

Per le API del modello di base Databricks, nell'ambito della fornitura del servizio, Databricks può elaborare temporaneamente e archiviare input e output ai fini della prevenzione, rilevamento e mitigazione di abusi o usi dannosi. Gli input e gli output sono isolati da quelli di altri clienti, archiviati nella stessa area dell'area di lavoro per un massimo di trenta (30) giorni e accessibili solo per rilevare e rispondere a problemi di sicurezza o abusi. Le API del modello di base sono un servizio designato di Databricks, ovvero rispettano i limiti di residenza dei dati implementati da Databricks Geos.

Condividi tramite