Usare il model router per Microsoft Foundry

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (versione classica).

🔄 Passa alla nuova documentazione di Microsoft Foundry se si usa il nuovo portale.

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (nuovo).

Il router modello per Microsoft Foundry è un modello di chat di intelligenza artificiale distribuibile che seleziona il modello LLM (Large Language Model) migliore per rispondere a una richiesta in tempo reale. Usa modelli preesistenti diversi per offrire prestazioni elevate e risparmiare sui costi di calcolo, tutti in un'unica distribuzione di modelli. Per altre informazioni sul funzionamento del router del modello, sui relativi vantaggi e limitazioni, vedere la Guida ai concetti relativi al router del modello.

Usare il router modello tramite l'API Completamenti chat come si usa un singolo modello di base, ad esempio GPT-4. Seguire gli stessi passaggi descritti nella Guida ai completamenti della chat.

Suggerimento

Il portale di Microsoft Foundry (nuovo) offre opzioni di configurazione avanzate per il router del modello. Passare alla documentazione di Microsoft Foundry (nuovo) per visualizzare le funzionalità più recenti.

Distribuire un modello di router modello

Il router modello è confezionato come un unico modello Foundry che distribuisci. Per iniziare, seguire la procedura descritta nella guida alla distribuzione delle risorse.

Nella sezione Crea nuova distribuzione, trova model-router nell'elenco Modelli e selezionalo.

Nel catalogo dei modelli trovare model-router nell'elenco Modelli e selezionarlo. Scegliere *Impostazioni predefinite" per la modalità di routing bilanciata e la route tra tutti i modelli supportati. Per abilitare altre opzioni di configurazione, scegliere l'opzione *Impostazioni personalizzate .

Screenshot della schermata di distribuzione del modello di router.

Annotazioni

Le impostazioni di distribuzione si applicano a tutti i modelli di chat sottostanti usati dal router del modello.

Non distribuire i modelli di chat sottostanti separatamente. Il router del modello funziona indipendentemente da altri modelli distribuiti.
Selezionare un filtro di contenuto quando si distribuisce il modello di router del modello o si applica un filtro in un secondo momento. Il filtro di contenuto si applica a tutto il contenuto passato da e verso il router del modello. Non impostare filtri di contenuto per ogni modello di chat sottostante.
L'impostazione del limite di velocità dei token al minuto si applica a tutte le attività da e verso il router del modello. Non impostare limiti di frequenza per ogni modello di chat sottostante.## Usare il router del modello nelle chat

Selezionare una modalità di routing

Annotazioni

L'applicazione delle modifiche alla modalità di routing può richiedere fino a cinque minuti.

Usare l'elenco a discesa Modalità di routing per selezionare un profilo di routing. In questo modo viene impostata la logica di routing per la distribuzione.

Screenshot della selezione della modalità di routing del modello di router.

Selezionare il sottoinsieme del modello

Annotazioni

L'applicazione delle modifiche apportate al subset del modello può richiedere fino a cinque minuti.

La versione più recente del router modello supporta subset personalizzati: è possibile specificare quali modelli sottostanti includere nelle decisioni di routing. In questo modo è possibile controllare maggiormente i costi, la conformità e le caratteristiche delle prestazioni.

Nel riquadro di distribuzione del router modello, selezionare Instrada a un subset di modelli. Selezionare quindi i modelli sottostanti da abilitare.

Screenshot della selezione del sottoinsieme del router modello.

Importante

Per includere modelli di Anthropic (Claude) nella distribuzione del router modello, è necessario distribuirli autonomamente nella risorsa Fonderia. Vedere Distribuire e usare modelli Claude.

I nuovi modelli introdotti in seguito vengono esclusi per impostazione predefinita fino a quando non vengono aggiunti in modo esplicito.

Testare il router modello con l'API Completamenti

È possibile usare il router modello tramite l'API di completamento della chat nello stesso modo in cui si usano altri modelli di chat OpenAI. Imposta il parametro model sul nome della distribuzione del router del modello e imposta il parametro messages sui messaggi che desideri inviare al modello.

Testare il router modello nel playground

Nel Portale Foundry, passare alla distribuzione del router modello nella pagina Modelli ed endpoint e selezionarla per aprire il playground del modello. Nel playground immettere i messaggi e visualizzare le risposte del modello. Ogni risposta mostra il modello sottostante selezionato dal router.

Importante

È possibile impostare i Temperature parametri e Top_P sui valori preferiti (vedere la guida ai concetti), ma si noti che i modelli di ragionamento (serie o) non supportano questi parametri. Se il modello router seleziona un modello di ragionamento per il tuo prompt, ignora sia i Temperature che i Top_P parametri di input.

I parametri stop, presence_penalty, frequency_penalty, logit_biase logprobs vengono eliminati in modo analogo per i modelli di serie O, ma usati in caso contrario.

Importante

A partire dalla versione 2025-11-18, il parametro reasoning_effort (vedere la Guida ai modelli di ragionamento) è ora supportato nel router modello. Se il router modello seleziona un modello di ragionamento per la richiesta, utilizzerà il valore di input reasoning_effort con il modello sottostante.

Connettere il router del modello a un agente Foundry

Se è stato creato un agente IA in Foundry, è possibile connettere la distribuzione del router modello per usarlo come base per il modello dell'agente. Selezionarlo dal menu a discesa modello nel playground dell'agente. L'agente avrà tutti gli strumenti e le istruzioni configurati per esso, ma il modello sottostante che elabora le risposte verrà selezionato dall'instradatore di modelli.

Importante

Se si usano gli strumenti del servizio Agent nei flussi, verranno usati solo i modelli OpenAI per il routing.

Formato di output

La risposta JSON ricevuta da un modello di router è identica alla risposta API di completamento della chat standard. Si noti che il "model" campo indica quale modello sottostante è stato selezionato per rispondere alla richiesta.

{
  "choices": [
    {
      "content_filter_results": {
        "hate": {
          "filtered": "False",
          "severity": "safe"
        },
        "protected_material_code": {
          "detected": "False",
          "filtered": "False"
        },
        "protected_material_text": {
          "detected": "False",
          "filtered": "False"
        },
        "self_harm": {
          "filtered": "False",
          "severity": "safe"
        },
        "sexual": {
          "filtered": "False",
          "severity": "safe"
        },
        "violence": {
          "filtered": "False",
          "severity": "safe"
        }
      },
      "finish_reason": "stop",
      "index": 0,
      "logprobs": "None",
      "message": {
        "content": "I'm doing well, thank you! How can I assist you today?",
        "refusal": "None",
        "role": "assistant"
      }
    }
  ],
  "created": 1745308617,
  "id": "xxxx-yyyy-zzzz",
  "model": "gpt-4.1-nano-2025-04-14",
  "object": "chat.completion",
  "prompt_filter_results": [
    {
      "content_filter_results": {
        "hate": {
          "filtered": "False",
          "severity": "safe"
        },
        "jailbreak": {
          "detected": "False",
          "filtered": "False"
        },
        "self_harm": {
          "filtered": "False",
          "severity": "safe"
        },
        "sexual": {
          "filtered": "False",
          "severity": "safe"
        },
        "violence": {
          "filtered": "False",
          "severity": "safe"
        }
      },
      "prompt_index": 0
    }
  ],
  "system_fingerprint": "xxxx",
  "usage": {
    "completion_tokens": 15,
    "completion_tokens_details": {
      "accepted_prediction_tokens": 0,
      "audio_tokens": 0,
      "reasoning_tokens": 0,
      "rejected_prediction_tokens": 0
    },
    "prompt_tokens": 21,
    "prompt_tokens_details": {
      "audio_tokens": 0,
      "cached_tokens": 0
    },
    "total_tokens": 36
  }
}

Monitorare le metriche del router modello

Monitorare le prestazioni

Monitorare le prestazioni della distribuzione del router del modello in Monitoraggio di Azure (AzMon) nel portale di Azure.

Passare alla paginaMonitoraggio>Metriche per la risorsa Azure OpenAI nel portale di Azure.
Filtrare in base al nome della distribuzione del modello di router modello.
Suddividere le metriche in base ai modelli sottostanti, se necessario.

Monitorare i costi

È possibile monitorare i costi del router modello, ovvero la somma dei costi sostenuti dai modelli sottostanti.

Visitare la pagina Gestione risorse ->Analisi dei costi nel portale di Azure.
Se necessario, filtrare in base alla risorsa di Azure.
Filtrare quindi in base al nome della distribuzione: Filtrare in base a "Tag", selezionare Distribuzione come tipo del tag e quindi selezionare il nome della distribuzione del router del modello come valore.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-11-19

Condividi tramite

Usare il model router per Microsoft Foundry

Distribuire un modello di router modello

Selezionare una modalità di routing

Selezionare il sottoinsieme del modello

Testare il router modello con l'API Completamenti

Testare il router modello nel playground

Connettere il router del modello a un agente Foundry

Formato di output

Monitorare le metriche del router modello

Monitorare le prestazioni

Monitorare i costi

Commenti e suggerimenti

Risorse aggiuntive