Sdílet prostřednictvím


Použijte modelový směrovač pro Microsoft Foundry

Poznámka:

Tento dokument se týká portálu Microsoft Foundry (nový).

Směrovač modelů pro Microsoft Foundry je nasaditelný chatovací model AI, který vybere nejlepší velký jazykový model (LLM), který odpoví na výzvu v reálném čase. Využívá různé existující modely k zajištění vysokého výkonu a úspory nákladů na výpočetní prostředky, a to vše v jednom nasazení modelu. Další informace o fungování směrovače modelů, jejích výhodách a omezeních najdete v průvodci koncepty směrovače modelu.

Směrovač modelů použijte prostřednictvím rozhraní API pro dokončování chatu, jako byste použili jeden základní model, jako je GPT-4. Postupujte stejně jako v průvodci dokončením chatu.

Návod

Portál Microsoft Foundry (nový) nabízí rozšířené možnosti konfigurace modelového směrovače. Pokud chcete zobrazit nejnovější funkce, přejděte do dokumentace k Microsoft Foundry (nové).

Nasazení modelu směrovače

Směrovač modelů je zabalen jako jediný model Foundry, který nasadíte. Začněte podle kroků v průvodci nasazením prostředků.

V části Vytvořit nové nasazení vyhledejte model-router v seznamu Modely a vyberte ho.

V katalogu modelů vyhledejte model-router v seznamu Modely a vyberte ho. Zvolte *Výchozí nastavení" pro režim vyváženého směrování a trasu mezi všemi podporovanými modely. Pokud chcete povolit další možnosti konfigurace, zvolte možnost *Vlastní nastavení .

Snímek obrazovky nasazení modelového směrovače

Poznámka:

Nastavení nasazení platí pro všechny podkladové modely chatu, které směrovač modelů používá.

  • Nenasazujte podkladové modely chatu samostatně. Směrovač modelů funguje nezávisle na ostatních nasazených modelech.
  • Vyberte filtr obsahu, když model směrovače modelu nasadíte nebo použijete filtr později. Filtr obsahu se vztahuje na veškerý obsah předaný směrovači modelu a ze směrovače modelu; nenastavujte filtry obsahu pro každý podkladový chatový model.
  • Nastavení limitu rychlosti tokenů za minutu se vztahuje na veškerou aktivitu na směrovač modelu a z směrovače modelu; nenastavujte limity rychlosti pro každý podkladový chatovací model.## Použijte směrovač modelů v chatech.

Výběr režimu směrování

Poznámka:

Změny v režimu směrování můžou trvat až pět minut, než se projeví.

Pomocí rozevíracího seznamu Režim směrování vyberte profil směrování. Tím se nastaví logika směrování pro vaše nasazení.

Snímek obrazovky s výběrem režimu směrování směrovače modelu

Vyberte podmnožinu modelu.

Poznámka:

Změny v podmnožině modelu můžou trvat až pět minut, než se projeví.

Nejnovější verze směrovače modelů podporuje vlastní podmnožiny: můžete určit, které základní modely zahrnout do rozhodování o směrování. Díky tomu budete mít větší kontrolu nad náklady, dodržováním předpisů a výkonem.

V podokně nasazení směrovače modelů vyberte Trasa k podmnožině modelů. Pak vyberte podkladové modely, které chcete povolit.

Snímek obrazovky s výběrem podmnožiny modelu směrovače

Důležité

Pokud chcete do nasazení směrovače modelů zahrnout modely od Anthropic (Claude), musíte je implementovat sami na váš zdroj Foundry. Viz Nasazení a použití modelů Claude.

Nové modely zavedené později jsou ve výchozím nastavení vyloučeny až do explicitního přidání.

Testovací model routeru s rozhraním API pro doplnění

Směrovač modelů můžete použít prostřednictvím rozhraní API pro dokončování chatu stejným způsobem, jakým byste používali jiné modely chatu OpenAI. Nastavte model parametr na název nasazení směrovače modelu a messages parametr na zprávy, které chcete odeslat modelu.

Testovací model router v dětském hřišti

Na portálu Foundry přejděte na stránku Modely a koncové body k nasazení směrovače modelu a vyberte ho, aby se otevřelo testovací prostředí modelu. Do dětského hřiště zadejte zprávy a podívejte se na odpovědi modelu. Každá odpověď ukazuje, který základní model směrovač vybral.

Důležité

Na parametry Temperature a Top_P můžete nastavit hodnoty, které preferujete (viz průvodce koncepty), ale mějte na paměti, že modely odůvodnění (o-series) tyto parametry nepodporují. Pokud směrovač modelů vybere pro váš podnět model pro vytváření odůvodnění, ignoruje vstupní parametry Temperature a Top_P.

Parametry stop, , presence_penaltyfrequency_penalty, logit_biasa logprobs jsou podobně vyřazeny pro modely o-series, ale používají se jinak.

Důležité

2025-11-18 Počínaje verzí reasoning_effort se parametr (viz průvodce modely odůvodnění) teď podporuje ve směrovači modelů. Pokud směrovač modelu vybere pro vaši výzvu model pro odůvodňování, použije vaši vstupní reasoning_effort hodnotu s podkladovým modelem.

Připojte model router k agentovi Foundry

Pokud jste vytvořili agenta AI v Foundry, můžete připojit nasazení směrovače modelu, aby sloužilo jako základní model agenta. Vyberte ho z rozevírací nabídky modelu v agent playground. Váš agent bude mít všechny nástroje a pokyny, které jste pro něj nakonfigurovali, ale základní model, který zpracovává odpovědi, bude vybrán směrovačem modelů.

Důležité

Pokud ve svých tocích používáte nástroje služby agenta, budou se pro směrování používat jenom modely OpenAI.

Výstupní formát

Odpověď JSON, kterou obdržíte ze směrovače modelu, je shodná se standardní odpovědí rozhraní API pro dokončení chatu. Všimněte si, že "model" pole odhalí, který podkladový model byl vybrán pro odpověď na výzvu.

{
  "choices": [
    {
      "content_filter_results": {
        "hate": {
          "filtered": "False",
          "severity": "safe"
        },
        "protected_material_code": {
          "detected": "False",
          "filtered": "False"
        },
        "protected_material_text": {
          "detected": "False",
          "filtered": "False"
        },
        "self_harm": {
          "filtered": "False",
          "severity": "safe"
        },
        "sexual": {
          "filtered": "False",
          "severity": "safe"
        },
        "violence": {
          "filtered": "False",
          "severity": "safe"
        }
      },
      "finish_reason": "stop",
      "index": 0,
      "logprobs": "None",
      "message": {
        "content": "I'm doing well, thank you! How can I assist you today?",
        "refusal": "None",
        "role": "assistant"
      }
    }
  ],
  "created": 1745308617,
  "id": "xxxx-yyyy-zzzz",
  "model": "gpt-4.1-nano-2025-04-14",
  "object": "chat.completion",
  "prompt_filter_results": [
    {
      "content_filter_results": {
        "hate": {
          "filtered": "False",
          "severity": "safe"
        },
        "jailbreak": {
          "detected": "False",
          "filtered": "False"
        },
        "self_harm": {
          "filtered": "False",
          "severity": "safe"
        },
        "sexual": {
          "filtered": "False",
          "severity": "safe"
        },
        "violence": {
          "filtered": "False",
          "severity": "safe"
        }
      },
      "prompt_index": 0
    }
  ],
  "system_fingerprint": "xxxx",
  "usage": {
    "completion_tokens": 15,
    "completion_tokens_details": {
      "accepted_prediction_tokens": 0,
      "audio_tokens": 0,
      "reasoning_tokens": 0,
      "rejected_prediction_tokens": 0
    },
    "prompt_tokens": 21,
    "prompt_tokens_details": {
      "audio_tokens": 0,
      "cached_tokens": 0
    },
    "total_tokens": 36
  }
}

Monitorování metrik modelového směrovače

Monitorování výkonu

Monitorujte výkon nasazení směrovače modelu ve službě Azure Monitor (AzMon) na webu Azure Portal.

  1. Na webu Azure Portal přejděte na stránku Metriky monitorování> vašeho prostředku Azure OpenAI.
  2. Vyfiltrujte podle názvu nasazení vašeho modelu směrovače.
  3. V případě potřeby rozdělte metriky podle podkladových modelů.

Monitorování nákladů

Můžete sledovat náklady modelového směrovače, což je součet nákladů vzniklých základními modely.

  1. Navštivte stránku Správa prostředků –>Analýza nákladů na webu Azure Portal.
  2. V případě potřeby vyfiltrujte podle prostředku Azure.
  3. Potom vyfiltrujte podle názvu nasazení: Filtrovat podle značky, jako typ značky vyberte Nasazení a pak jako hodnotu vyberte název nasazení směrovače modelu.