Ottimizzare modelli con Fonderia Azure AI

2025-06-25

L'adattamento fine personalizza un modello di intelligenza artificiale preaddestrato con un addestramento aggiuntivo su un compito specifico o un set di dati per migliorare le prestazioni, aggiungere nuove competenze o aumentare l'accuratezza. Il risultato è un nuovo modello GenAI ottimizzato basato sugli esempi forniti. Questo articolo illustra i concetti chiave e le decisioni da prendere prima di ottimizzare, incluso il tipo di ottimizzazione più adatto per il caso d'uso e i criteri di selezione dei modelli in base alle tecniche di training per l'ottimizzazione e il modo in cui è utile nel percorso GenAI.

Se si sta iniziando a ottimizzare correttamente, è consigliabile usare GPT-4.1 per competenze complesse come la traduzione della lingua, l'adattamento del dominio o la generazione avanzata di codice. Per attività più incentrate (ad esempio classificazione, analisi del sentiment o moderazione del contenuto) o quando si distilla la conoscenza da un modello più sofisticato, iniziare con GPT-4.1-mini per un'iterazione più rapida e ridurre i costi.

Casi d'uso principali per l'ottimizzazione

L'ottimizzazione consente di personalizzare i modelli linguistici per applicazioni e domini specifici. Alcuni casi d'uso chiave includono:

Specializzazione dominio: Adattare un modello linguistico per un campo specializzato, ad esempio medicina, finanza o legge, in cui la conoscenza e la terminologia specifiche del dominio sono importanti. Insegnare al modello di comprendere il gergo tecnico e fornire risposte più accurate.
Prestazioni attività: Ottimizzare un modello per un'attività specifica, ad esempio l'analisi del sentiment, la generazione di codice, la traduzione o il riepilogo. È possibile migliorare significativamente le prestazioni di un modello più piccolo in un'applicazione specifica, rispetto a un modello per utilizzo generico.
Stile e tono: Insegnare al modello di corrispondere al proprio stile di comunicazione preferito, ad esempio adattare il modello per la scrittura aziendale formale, la voce specifica del marchio o la scrittura tecnica.
Istruzione seguente: Migliorare la capacità del modello di seguire requisiti di formattazione specifici, istruzioni in più passaggi o output strutturati. Nei framework multi-agente, insegnare al modello a chiamare l'agente corretto per l'attività corretta.
Conformità e sicurezza: Eseguire il training di un modello ottimizzato per rispettare i criteri dell'organizzazione, i requisiti normativi o altre linee guida specifiche per l'applicazione.
Adattamento linguistico o culturale: Adattare un modello linguistico per una lingua, un dialetto o un contesto culturale specifico che potrebbe non essere ben rappresentato nei dati di training. L'ottimizzazione è particolarmente utile quando un modello per utilizzo generico non soddisfa i requisiti specifici, ma si vuole evitare i costi e la complessità del training di un modello da zero.

Calcolo serverless o gestito?

Prima di scegliere un modello, è importante selezionare il prodotto di ottimizzazione corrispondente alle proprie esigenze. AI Foundry di Azure offre due modalità principali per la regolazione fine: serverless e elaborazione gestita.

Serverless consente di personalizzare i modelli utilizzando la nostra capacità, con prezzi basati sul consumo a partire da 1,70 $ per ogni milione di token di input. Microsoft ottimizza il training per velocità e scalabilità, gestendo al contempo tutta l'infrastruttura. Questo approccio non richiede quote GPU e fornisce accesso esclusivo ai modelli OpenAI, anche se con meno opzioni di iperparametri rispetto al calcolo gestito.
Il calcolo gestito offre una gamma più ampia di modelli e personalizzazione avanzata tramite AzureML, ma richiede di fornire macchine virtuali personalizzate per il training e l'hosting. Sebbene ciò offra il controllo completo sulle risorse, richiede quote elevate che molti clienti non hanno, non include modelli OpenAI e non può utilizzare le ottimizzazioni multi-tenancy.

Per la maggior parte dei clienti, serverless offre il miglior equilibrio tra facilità d'uso, efficienza dei costi e accesso ai modelli Premium. Questo documento è incentrato sulle opzioni serverless.

Per trovare i passaggi per ottimizzare un modello in AI Foundry, vedere Ottimizzare i modelli in AI Foundry o Ottimizzare i modelli usando il calcolo gestito. Per indicazioni dettagliate sull'ottimizzazione openAI, vedere Ottimizzare i modelli OpenAI di Azure.

Tecniche di training

Dopo aver identificato un caso d'uso, è necessario selezionare la tecnica di training appropriata, che guida il modello selezionato per il training. Sono disponibili tre tecniche di training per ottimizzare i modelli:

Fine-Tuning con supervisione (SFT): Tecnica di base che allena il modello con coppie di input-output, insegnandogli a produrre risposte desiderate per input specifici.
- Ideale per: La maggior parte dei casi d'uso, tra cui la specializzazione del dominio, le prestazioni delle attività, lo stile e il tono, le istruzioni seguenti e l'adattamento del linguaggio.
- Quando usare: Iniziare da qui per la maggior parte dei progetti. SFT affronta il numero più ampio di scenari di ottimizzazione e offre risultati affidabili con dati di training di input-output chiari.
- Modelli supportati: GPT 4o, 4o-mini, 4.1, 4.1-mini, 4.1-nano; Llama 2 e Llama 3.1; Phi 4, Phi-4-mini-instruct; Mistral Nemo, Ministral-3B, Mistral Large (2411); NTT Tsuzumi-7b
Ottimizzazione delle preferenze dirette (DPO): Esegue il training dei modelli per preferire determinati tipi di risposte rispetto ad altri imparando dal feedback comparativo, senza richiedere un modello di ricompensa separato.
- Ideale per: Miglioramento della qualità della risposta, della sicurezza e dell'allineamento con le preferenze umane.
- Quando usare: Quando si hanno esempi di output preferiti e non preferiti o quando è necessario ottimizzare per qualità soggettive come utilità, innocuità o stile. I casi d'uso includono l'adattamento di modelli a uno stile e un tono specifici oppure l'adattamento di un modello alle preferenze culturali.
- Modelli supportati: GPT 4o, 4.1, 4.1-mini, 4.1 nano
Rinforzo Fine-Tuning (RFT): Usa l'apprendimento per rinforzo per ottimizzare i modelli in base ai segnali di ricompensa, consentendo obiettivi di ottimizzazione più complessi.
- Ideale per: Scenari di ottimizzazione complessi in cui le semplici coppie di input-output non sono sufficienti.
- Quando usare: RFT è ideale per domini obiettivo come matematica, chimica e fisica in cui ci sono risposte chiare e sbagliate e il modello mostra già alcune competenze. Funziona al meglio quando è difficile indovinare casualmente e i valutatori esperti concorderebbero uniformemente su una risposta corretta e inequivocabile. Richiede più competenze di Machine Learning per implementare in modo efficace.
- Modelli supportati: o4-mini

La maggior parte dei clienti deve iniziare con SFT, in quanto risolve il numero più ampio di casi d'uso di ottimizzazione.

Seguire questo collegamento per visualizzare e scaricare set di dati di esempio per provare l'ottimizzazione.

Modalità di training

Da testo a testo (tutti i modelli): Tutti i modelli supportano l'ottimizzazione standard da testo a testo per le attività basate sulla lingua.
Visione e testo (GPT 4o, 4.1): Alcuni modelli supportano l'ottimizzazione della visione, accettando sia input di immagine che di testo durante la produzione di output di testo. I casi d'uso per l'ottimizzazione della visione includono l'interpretazione di grafici, grafici e dati visivi; moderazione del contenuto; valutazione della qualità visiva; elaborazione di documenti con testo misto e immagine; e la catalogazione dei prodotti dalle fotografie.

Tabella di confronto dei modelli

Questa tabella offre una panoramica dei modelli disponibili

Modello	Modalità	Tecniche	Punti di forza
GPT 4.1	Testo, Visione	SFT, responsabile della protezione dei dati	Prestazioni superiori su attività sofisticate, comprensione dettagliata
GPT 4.1 mini	Text	SFT, responsabile della protezione dei dati	Iterazione veloce, conveniente, valida per attività semplici
GPT 4.1 nano	Text	SFT, responsabile della protezione dei dati	Utilizzo rapido, conveniente e minimo delle risorse
o4-mini	Text	RFT	Modello di ragionamento adatto per attività logiche complesse
Phi 4	Text	SFT	Opzione conveniente per attività più semplici
Ministral 3B	Text	SFT	Opzione a basso costo per un'iterazione più rapida
Mistral Nemo	Text	SFT	Bilanciare le dimensioni e le funzionalità
Mistral Large (2411)	Text	SFT	Modello Mistral più idoneo, migliore per le attività complesse

Introduzione al fine tuning

Definire il caso d'uso: Identificare se è necessario un modello per utilizzo generico altamente idoneo (ad esempio GPT 4.1), un modello più piccolo a basso costo per un'attività specifica (GPT 4.1-mini o nano) o un modello di ragionamento complesso (o4-mini).
Preparare i dati: Iniziare con 50-100 esempi di alta qualità per i test iniziali, con scalabilità fino a 500 esempi per i modelli di produzione.
Scegliere la tecnica: Iniziare con Fine-Tuning supervisionato (SFT) a meno che non siano presenti requisiti specifici per i modelli di ragionamento/RFT.
Eseguire l'iterazione e valutare: L'ottimizzazione è un processo iterativo: iniziare con una baseline, misurare le prestazioni e perfezionare l'approccio in base ai risultati.

Per trovare i passaggi per ottimizzare un modello in AI Foundry, vedere Ottimizzare i modelli in AI Foundry, Ottimizzare i modelli OpenAI di Azure o ottimizzare i modelli usando il calcolo gestito.

Fine-Tuning Disponibilità

Dopo aver appreso quando usare l'ottimizzazione per il proprio caso d'uso, è possibile passare a Fonderia Azure AI per trovare i modelli disponibili per l'ottimizzazione.

Per ottimizzare un modello di AI Foundry usando Serverless , è necessario disporre di un hub o di un progetto nell'area in cui il modello è disponibile per l'ottimizzazione. Vedere Disponibilità dell'area per i modelli nella distribuzione standard per informazioni dettagliate sulla disponibilità del modello e dell'area e Su come creare un progetto basato su Hub per creare il progetto.

Per ottimizzare un modello OpenAI , è possibile usare una risorsa OpenAI di Azure, una risorsa Foundry o un progetto predefinito o un hub/progetto. GPT 4.1, 4.1 mini e 4.1 nano sono disponibili in tutte le aree con training globale. Per la disponibilità a livello di area, vedere Disponibilità e limiti a livello di area per l'ottimizzazione di Azure OpenAI. Per istruzioni sulla creazione di un nuovo progetto, vedere Creare un progetto per Azure AI Foundry .

Per ottimizzare un modello usando l'ambiente di calcolo gestito , è necessario disporre di una quota hub/progetto e della macchina virtuale disponibile per il training e l'inferenza. Vedere Ottimizzare i modelli usando il calcolo gestito (anteprima) per altre informazioni su come usare l'ottimizzazione delle risorse di calcolo gestite e Su come creare un progetto basato su Hub per creare il progetto.

Condividi tramite