Informazioni sulle distribuzioni di modelli
La distribuzione è un componente operativo principale in LLMOps. Dopo aver sviluppato e valutato i modelli linguistici, è necessario prendere decisioni pratiche di distribuzione specifiche per gli LLM. Esistono tre approcci chiave per l'operazionalizzazione delle macchine virtuali: la strutturazione delle richieste di riutilizzo, l'orchestrazione di flussi di lavoro di intelligenza artificiale complessi e la distribuzione di modelli agli utenti finali. Esaminiamo questi elementi.
Come strutturare le richieste
Per iniziare, uno dei metodi chiave consiste nell'usare prompt progettati. I prompt progettati sono prompt accuratamente creati che guidano l'LLM nella creazione dell'output desiderato. Quando si archiviano tali prompt come modelli, è possibile riutilizzarli in applicazioni diverse, garantendo coerenza ed efficienza nel processo di distribuzione.
Come orchestrare flussi di lavoro di intelligenza artificiale complessi
Un altro approccio potente è l'uso delle catene. Strumenti come LangChain e LlamaIndex consentono la creazione di catene, ovvero sequenze di operazioni che elaborano e trasformano i dati in varie fasi. Usando gli LLM in punti diversi all'interno di queste catene, è possibile ottenere funzionalità sofisticate di elaborazione e trasformazione dei dati.
Come distribuire modelli agli utenti finali
Quando si lavora con i modelli LLM, si lavora più comunemente con i modelli pre-addestrati. Questi modelli vengono sottoposti a training preliminare su set di dati di grandi dimensioni e possono essere usati in modo predefinito per varie applicazioni. Offrono un modo rapido e semplice per distribuire l'intelligenza artificiale generativa senza la necessità di una formazione completa.
Per accedere ai modelli con training preliminare, sono disponibili due opzioni:
- Modelli di base interni o self-hosted: modelli ospitati all'interno della propria organizzazione, che offrono maggiore controllo e personalizzazione per personalizzare il modello in base alle esigenze specifiche.
- Provider di modelli proprietari esterni: i modelli offerti tramite chiamate API tramite, ad esempio, Azure OpenAI, che consentono di integrare funzionalità avanzate di intelligenza artificiale senza la necessità di un'infrastruttura estesa, rendendola un'opzione conveniente e conveniente.
Suggerimento
Altre informazioni sui modelli di base self-hosted, ad esempio DBRX di Databricks e provider di modelli esterni come Azure OpenAI.
Quando si vuole integrare un LLM in un ambiente di produzione, rendendolo accessibile agli utenti finali o ad altri sistemi per generare stime o completamenti, è necessario distribuire il modello.
Esistono quattro strategie di distribuzione:
- Batch: generare e archiviare i completamenti in una tabella di input di testo o prompt. Ad esempio, per riepilogare i report finanziari e generare informazioni dettagliate.
- Flusso: generare e archiviare i completamenti in micro batch di input di testo o prompt durante l'elaborazione. Ad esempio, per personalizzare i messaggi di marketing.
- In tempo reale: generare completamenti in modo asincrono in tempo reale in un singolo input o prompt. Ad esempio, per i chatbot usati nel servizio clienti.
- Incorporato o perimetrale: distribuire il modello su dispositivi locali o server perimetrali per fornire risposte a bassa latenza e funzionalità offline. Ad esempio, per modificare la temperatura dell'aria condizionata in un'auto usando il comando vocale.
Nota
La distribuzione perimetrale (su dispositivo) è complessa con i moduli APM a causa dei requisiti di spazio. Se si vuole distribuire un modello linguistico nella rete perimetrale, è consigliabile esplorare modelli di linguaggio piccoli come i modelli Phi-3.