Condividi tramite


Introduzione alla personalizzazione di un modello linguistico di grandi dimensioni (LLM)

Esistono diverse tecniche per adattare un modello linguistico pre-addestrato adeguato a un compito o a un dominio specifico. Queste includono progettazione dei prompt, RAG (Retrieval Augmented Generation) e ottimizzazione. Queste tre tecniche non si escludono a vicenda, ma sono metodi complementari che combinati possono essere applicabili a un caso d'uso specifico. In questo articolo verranno esaminate queste tecniche, i casi d'uso illustrativi, gli aspetti da considerare e verranno forniti collegamenti alle risorse per saperne di più e iniziare a usarle.

Progettazione delle richieste

Definizione

La progettazione dei prompt è una tecnica che è sia arte che scienza, che implica la progettazione di prompt per i modelli di IA generativa. Questo processo usa l'apprendimento nel contesto (zero shot e few shot) e, con iterazione, migliora l'accuratezza e la pertinenza nelle risposte, ottimizzando le prestazioni del modello.

Casi d'uso illustrativi

Un responsabile marketing presso un'azienda attenta alle tematiche ambientali può usare la progettazione di prompt per aiutare il modello a generare descrizioni più allineate al tono e allo stile del marchio. Ad esempio, può aggiungere un prompt come "Scrivi una descrizione dei prodotti per una nuova linea di prodotti di pulizia ecologica che sottolinei qualità, efficacia ed evidenzi l'uso di ingredienti rispettosi dell'ambiente" all'input. In questo modo il modello genera descrizioni allineate ai valori e al messaggio del marchio.

Alcune cose da considerare

  • La progettazione di prompt è il punto di partenza per generare l'output desiderato dai modelli di IA generativa.

  • Creare istruzioni chiare: le istruzioni vengono comunemente usate nei prompt e guidano il comportamento del modello. Occorre essere specifici e lasciare il minimo spazio possibile all'interpretazione. Usare analogie e linguaggio descrittivo per aiutare il modello a comprendere il risultato desiderato.

  • Sperimentare e iterare: la progettazione di prompt è un'arte che richiede sperimentazione e iterazione. Provare e acquisire esperienza nella creazione di prompt per attività diverse. Ogni modello può comportarsi in modo diverso, quindi è importante adattare le tecniche di progettazione di prompt di conseguenza.

Introduzione

RAG (Generazione aumentata di recupero)

Definizione

RAG (Retrieval Augmented Generation) è un metodo che integra dati esterni in un prompt del modello linguistico di grandi dimensioni per generare risposte pertinenti. Questo approccio è particolarmente utile quando si usa un ampio campione di testo non strutturato basato su argomenti diversi. Consente di basare le risposte sulla knowledge base (KB) dell'organizzazione, per fornire una risposta più personalizzata e accurata.

La RAG è utile anche per rispondere a domande basate sui dati privati di un'organizzazione o quando i dati pubblici su cui è stato eseguito il training del modello potrebbero essere diventati obsoleti. Ciò consente di garantire che le risposte siano sempre aggiornate e pertinenti, indipendentemente dalle modifiche apportate al panorama dei dati.

Caso d'uso illustrativo

Il reparto delle risorse umane di un'azienda desidera fornire un assistente intelligente che risponda a domande specifiche relative all'assicurazione sanitaria dei dipendenti, ad esempio "gli occhiali sono coperti?" La RAG permette di inserire l'ampia documentazione associata ai criteri del piano assicurativo per consentire la risposta a questi tipi specifici di domande.

Alcune cose da considerare

  • La RAG contribuisce a basare l'output di intelligenza artificiale sui dati reali e riduce la probabilità di falsificazione.

  • La RAG è utile quando è necessario rispondere a domande basate su dati proprietari privati.

  • La RAG è la scelta appropriata quando si vuole rispondere a domande recenti, ad esempio prima della data di cutoff dell'ultimo training della versione del modello.

Introduzione

Ottimizzazione

Definizione

L'ottimizzazione, in particolare l'ottimizzazione con supervisione in questo contesto, è un processo iterativo che adatta un modello linguistico di grandi dimensioni esistente a un set di training fornito per migliorare le prestazioni, insegnare al modello nuove competenze o ridurre la latenza. Questo approccio viene usato quando il modello deve apprendere e generalizzare su argomenti specifici, in particolare quando questi argomenti hanno un ambito di piccole dimensioni.

L'ottimizzazione richiede l'uso di dati di training di alta qualità, in un formato speciale basato su esempi, per creare il nuovo modello linguistico di grandi dimensioni ottimizzato. Concentrandosi su argomenti specifici, l'ottimizzazione consente al modello di fornire risposte più accurate e pertinenti all'interno di tali aree di interesse.

Caso d'uso illustrativo

Un dipartimento IT utilizza GPT-4o per convertire query in linguaggio naturale in SQL, ma ha scoperto che le risposte non sono sempre affidabili rispetto al loro schema e il costo è proibitivo.

Ottimizza GPT-4o mini con centinaia di richieste e risposte corrette e genera un modello che offre prestazioni migliori rispetto al modello di base con costi e latenza inferiori.

Alcune cose da considerare

  • L'ottimizzazione è una funzionalità avanzata. Migliora il modello linguistico di grandi dimensioni con conoscenze specifiche di dominio e/o conoscenze successive alla data di cutoff. Per iniziare, valutare le prestazioni baseline di un modello standard in base ai propri requisiti prima di prendere in considerazione questa opzione.

  • La presenza di una baseline delle prestazioni senza ottimizzazione è fondamentale per sapere se l'ottimizzazione ha migliorato le prestazioni del modello. L'ottimizzazione con dati errati peggiora il modello di base, ma senza una baseline è difficile rilevare le regressioni.

  • I casi d'uso validi per l'ottimizzazione includono il reindirizzamento del modello per fornire contenuto con uno stile, un tono o un formato specifici e personalizzati, oppure attività in cui le informazioni necessarie per reindirizzare il modello sono troppo lunghe o complesse per adattarsi alla finestra del prompt.

  • Costi dell'ottimizzazione:

    • L'ottimizzazione può ridurre i costi in due dimensioni: (1) usando meno token a seconda dell'attività (2) usando un modello più piccolo (ad esempio GPT-4o mini può potenzialmente essere ottimizzato per ottenere la stessa qualità di GPT-4o in un'attività specifica).

    • L'ottimizzazione prevede costi iniziali per l'addestramento del modello. Nonché costi orari aggiuntivi per l'hosting del modello personalizzato dopo la distribuzione.

Introduzione