Informazioni sulle distribuzioni di modelli

5 minuti

La distribuzione è un componente operativo principale in LLMOps. Dopo aver sviluppato e valutato i modelli linguistici, è necessario prendere decisioni pratiche di distribuzione specifiche per gli LLM. Esistono tre approcci chiave per l'operazionalizzazione delle macchine virtuali: la strutturazione delle richieste di riutilizzo, l'orchestrazione di flussi di lavoro di intelligenza artificiale complessi e la distribuzione di modelli agli utenti finali. Esaminiamo questi elementi.

Come strutturare le richieste

Per iniziare, uno dei metodi chiave consiste nell'usare prompt progettati. I prompt progettati sono prompt accuratamente creati che guidano l'LLM nella creazione dell'output desiderato. Quando si archiviano tali prompt come modelli, è possibile riutilizzarli in applicazioni diverse, garantendo coerenza ed efficienza nel processo di distribuzione.

Come orchestrare flussi di lavoro di intelligenza artificiale complessi

Un altro approccio potente è l'uso delle catene. Strumenti come LangChain e LlamaIndex consentono la creazione di catene, ovvero sequenze di operazioni che elaborano e trasformano i dati in varie fasi. Usando gli LLM in punti diversi all'interno di queste catene, è possibile ottenere funzionalità sofisticate di elaborazione e trasformazione dei dati.

Come distribuire modelli agli utenti finali

Quando si lavora con i modelli LLM, si lavora più comunemente con i modelli pre-addestrati. Questi modelli vengono sottoposti a training preliminare su set di dati di grandi dimensioni e possono essere usati in modo predefinito per varie applicazioni. Offrono un modo rapido e semplice per distribuire l'intelligenza artificiale generativa senza la necessità di una formazione completa.

Per accedere ai modelli con training preliminare, sono disponibili due opzioni:

Modelli di base interni o self-hosted: modelli ospitati all'interno della propria organizzazione, che offrono maggiore controllo e personalizzazione per personalizzare il modello in base alle esigenze specifiche.
Provider di modelli proprietari esterni: i modelli offerti tramite chiamate API tramite, ad esempio, Azure OpenAI, che consentono di integrare funzionalità avanzate di intelligenza artificiale senza la necessità di un'infrastruttura estesa, rendendola un'opzione conveniente e conveniente.

Suggerimento

Altre informazioni sui modelli di base self-hosted, ad esempio DBRX di Databricks e provider di modelli esterni come Azure OpenAI.

Quando si vuole integrare un LLM in un ambiente di produzione, rendendolo accessibile agli utenti finali o ad altri sistemi per generare stime o completamenti, è necessario distribuire il modello.

Esistono quattro strategie di distribuzione:

Batch: generare e archiviare i completamenti in una tabella di input di testo o prompt. Ad esempio, per riepilogare i report finanziari e generare informazioni dettagliate.
Flusso: generare e archiviare i completamenti in micro batch di input di testo o prompt durante l'elaborazione. Ad esempio, per personalizzare i messaggi di marketing.
In tempo reale: generare completamenti in modo asincrono in tempo reale in un singolo input o prompt. Ad esempio, per i chatbot usati nel servizio clienti.
Incorporato o perimetrale: distribuire il modello su dispositivi locali o server perimetrali per fornire risposte a bassa latenza e funzionalità offline. Ad esempio, per modificare la temperatura dell'aria condizionata in un'auto usando il comando vocale.

Nota

La distribuzione perimetrale (su dispositivo) è complessa con i moduli APM a causa dei requisiti di spazio. Se si vuole distribuire un modello linguistico nella rete perimetrale, è consigliabile esplorare modelli di linguaggio piccoli come i modelli Phi-3.

Commenti e suggerimenti

Questa pagina è stata utile?