Freigeben über


Verwenden des Modellrouters für Microsoft Foundry

Hinweis

Dieses Dokument bezieht sich auf das Microsoft Foundry(klassische) Portal.

🔄 Wechseln Sie zur Microsoft Foundry-Dokumentation (neu), wenn Sie das neue Portal verwenden.

Hinweis

Dieses Dokument bezieht sich auf das Microsoft Foundry (neue) Portal.

Der Modellrouter für Microsoft Foundry ist ein bereitstellungsfähiges KI-Chatmodell, das das beste Sprachmodell (LLM) auswählt, um auf eine Eingabeaufforderung in Echtzeit zu reagieren. Es verwendet verschiedene bereits vorhandene Modelle, um hohe Leistung zu erzielen und Kosten für die Berechnung zu sparen, alles in einer Modellbereitstellung. Weitere Informationen zur Funktionsweise des Modellrouters, seinen Vorteilen und Einschränkungen finden Sie im Leitfaden zu Konzepten des Modellrouters.

Verwenden Sie den Modellrouter über die Chatvervollständigungs-API, wie Sie auch ein einzelnes Basismodell verwenden würden, beispielsweise GPT-4. Führen Sie die gleichen Schritte wie im Chatabschlusshandbuch aus.

Tipp

Das Microsoft Foundry (neue) Portal bietet erweiterte Konfigurationsoptionen für Modellrouter. Wechseln Sie zur Microsoft Foundry (neue) Dokumentation, um die neuesten Funktionen zu sehen.

Unterstützte zugrunde liegende Modelle

Mit der 2025-11-18 Version fügt Model Router neun neue Modelle hinzu, darunter Anthropics Claude, DeepSeek, Llama, Grok Modelle, um insgesamt 18 Modelle zu unterstützen, die für das Routing Ihrer Eingabeaufforderungen verfügbar sind.

Hinweis

Sie müssen die unterstützten LLMs nicht separat für die Verwendung mit Modellrouter bereitstellen, mit Ausnahme der Claude-Modelle. Um Modellrouter mit Ihren Claude-Modellen zu verwenden, stellen Sie sie zuerst aus dem Modellkatalog bereit. Die Deployments werden vom Modellrouter aufgerufen, wenn sie für das Routing ausgewählt sind.

Modellrouterversion Zugrunde liegende Modelle Zugrunde liegende Modellversion
2025-11-18 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano
gpt-5-mini
gpt-5 1
gpt-5-chat
Deepseek-v3.1 2
gpt-oss-120b 2
llama4-maverick-instruct 2
grok-4 2
grok-4-fast 2
claude-haiku-4-5 3
claude-opus-4-1 3
claude-sonnet-4-5 3
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07





2024-11-20
2024-07-18
2025-10-01
2025-08-05
2025-09-29
2025-08-07 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5 1
gpt-5-mini
gpt-5-nano
gpt-5-chat
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-05-19 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
2025-04-14
2025-04-14
2025-04-14
2025-04-16
  • 1Erfordert die Registrierung.
  • 2Die Unterstützung für Modellrouter befindet sich in der Vorschauphase.
  • 3Die Unterstützung von Modell-Routern befindet sich in der Vorschauphase. Erfordert die Bereitstellung des Modells für die Verwendung mit dem Modellrouter.

Bereitstellen eines Modellroutermodells

Der Modellrouter wird als einzelnes Foundry-Modell verpackt, das Sie bereitstellen. Führen Sie zunächst die Schritte im Ressourcenbereitstellungshandbuch aus.

In Neue Bereitstellung erstellen, suchen Sie in der model-router-Liste nach und wählen Sie es aus.

Suchen Sie model-router im Modellkatalog in der Liste " Modelle ", und wählen Sie ihn aus. Wählen Sie "Standardeinstellungen" für den Modus "Ausgewogenes Routing" und "Route zwischen allen unterstützten Modellen" aus. Um weitere Konfigurationsoptionen zu aktivieren, wählen Sie "Benutzerdefinierte Einstellungen" aus.

Screenshot des Bildschirms

Hinweis

Ihre Bereitstellungseinstellungen gelten für alle zugrunde liegenden Chatmodelle, die vom Modellrouter verwendet werden.

  • Stellen Sie die zugrunde liegenden Chatmodelle nicht separat bereit. Modellrouter funktioniert unabhängig von Ihren anderen bereitgestellten Modellen.
  • Wählen Sie einen Inhaltsfilter aus, wenn Sie das Modell für den Modellrouter bereitstellen oder später einen Filter anwenden. Der Inhaltsfilter gilt für alle Inhalte, die an den und vom Modellrouter übergeben werden. Legen Sie keine Inhaltsfilter für jedes zugrunde liegende Chatmodell fest.
  • Ihre Token-Pro-Minute-Grenzwerteinstellung gilt für alle Aktivitäten auf und vom Modellrouter; Legen Sie für jedes zugrunde liegende Chatmodell keine Ratenbeschränkungen fest.

Auswählen eines Routingmodus

Hinweis

Änderungen am Routingmodus können bis zu fünf Minuten in Kraft treten.

Verwenden Sie die Dropdownliste "Routingmodus ", um ein Routingprofil auszuwählen. Dadurch wird die Routinglogik für Ihre Bereitstellung festgelegt.

Screenshot der Auswahl des Modellrouter-Routingmodus.

Wann jeder Modus verwendet werden soll:

  • Ausgeglichen (Standard): Die meisten Workloads. Optimiert die Kosten bei gleichzeitiger Qualität.
  • Qualität: Kritische Aufgaben wie rechtliche Überprüfung, medizinische Zusammenfassungen oder komplexe Begründungen.
  • Kosten: Hohe Menge, budgetsensitive Workloads wie Inhaltsklassifizierung oder einfache Q&A.

Auswählen der Modelluntermenge

Hinweis

Änderungen an der Modelluntermenge können bis zu fünf Minuten dauern, bis sie wirksam werden.

Die neueste Version des Modellrouters unterstützt benutzerdefinierte Teilmengen: Sie können angeben, welche zugrunde liegenden Modelle in Routingentscheidungen einbezogen werden sollen. Dadurch erhalten Sie mehr Kontrolle über Kosten-, Compliance- und Leistungsmerkmale.

Wählen Sie im Bereich "Modellrouterbereitstellung" die Option "An eine Teilmenge von Modellen weiterleiten" aus. Wählen Sie dann die zugrunde liegenden Modelle aus, die Sie aktivieren möchten.

Screenshot: Auswahl der Modellrouterteilmenge

Von Bedeutung

Um Modelle von Anthropic (Claude) in Ihre Modellrouterbereitstellung einzuschließen, müssen Sie sie selbst in Ihrer Foundry-Ressource bereitstellen. Siehe Bereitstellen und Verwenden von Claude-Modellen.

Hinweis

Sie müssen mindestens ein Modell für das Routing auswählen. Wenn keine Modelle ausgewählt sind, verwendet die Bereitstellung den Standardmodellsatz für den Routingmodus.

Neue Modelle, die später eingeführt wurden, werden standardmäßig ausgeschlossen, bis sie explizit hinzugefügt wurden.

Testmodell des Routers mit der Completions-API

Sie können modellrouter über die Chatabschluss-API auf die gleiche Weise wie andere OpenAI-Chatmodelle verwenden. Legen Sie den model Parameter auf den Namen unserer Modellrouterbereitstellung fest, und legen Sie den messages Parameter auf die Nachrichten fest, die Sie an das Modell senden möchten.

Testen des Modellrouters im Playground

Wechseln Sie im Foundry-Portal auf der Seite "Modelle + Endpunkte " zu Ihrer Modellrouterbereitstellung, und wählen Sie sie aus, um den Modell-Playground zu öffnen. Geben Sie im Playground Nachrichten ein, und sehen Sie sich die Antworten des Modells an. Jede Antwort zeigt an, welches zugrunde liegende Modell der Router ausgewählt hat.

Von Bedeutung

Sie können die Temperature- und Top_P-Werte, die Sie bevorzugen, festlegen (siehe das Konzepthandbuch), sollten Sie jedoch beachten, dass Begründungsmodelle (o-Serie) diese Parameter nicht unterstützen. Wenn der Modellrouter ein Grundmodell für Ihre Eingabeaufforderung auswählt, ignoriert er die Eingabeparameter Temperature und Top_P.

Die Parameter stop, presence_penalty, frequency_penalty, logit_bias und logprobs werden für o-Serienmodelle ähnlich weggelassen, aber ansonsten verwendet.

Von Bedeutung

Ab der 2025-11-18 Version wird der reasoning_effort Parameter (siehe Leitfaden für Gründemodelle) jetzt im Modellrouter unterstützt . Wenn der Modellrouter ein Schlussfolgerungsmodell für Ihre Eingabeaufforderung auswählt, wird Ihr reasoning_effort Eingabewert mit dem zugrunde liegenden Modell genutzt.

Verbinden des Modellrouters mit einem Foundry-Agent

Wenn Sie einen KI-Agent in Foundry erstellt haben, können Sie Ihre Modellrouterbereitstellung verbinden, um sie als Basismodell für den Agent zu verwenden. Wählen Sie es im Dropdownmenü " Modell " im Agent-Playground aus. Ihr Agent verfügt über alle Tools und Anweisungen, die Sie dafür konfiguriert haben, aber das zugrunde liegende Modell, das seine Antworten verarbeitet, wird vom Modellrouter ausgewählt.

Von Bedeutung

Wenn Sie Agent-Diensttools in Ihren Flüssen verwenden, werden nur OpenAI-Modelle für das Routing verwendet.

Ausgabeformat

Die JSON-Antwort, die Sie von einem Modellroutermodell erhalten, ist identisch mit der API-Antwort der standardmäßigen Chatabschluss-API. Beachten Sie, dass das "model" Feld anzeigt, welches zugrunde liegende Modell ausgewählt wurde, um auf die Eingabeaufforderung zu reagieren.

Die folgende Beispielantwort wurde mithilfe der API-Version 2025-11-18generiert:

{
  "choices": [
    {
      "content_filter_results": {
        "hate": {
          "filtered": "False",
          "severity": "safe"
        },
        "protected_material_code": {
          "detected": "False",
          "filtered": "False"
        },
        "protected_material_text": {
          "detected": "False",
          "filtered": "False"
        },
        "self_harm": {
          "filtered": "False",
          "severity": "safe"
        },
        "sexual": {
          "filtered": "False",
          "severity": "safe"
        },
        "violence": {
          "filtered": "False",
          "severity": "safe"
        }
      },
      "finish_reason": "stop",
      "index": 0,
      "logprobs": "None",
      "message": {
        "content": "I'm doing well, thank you! How can I assist you today?",
        "refusal": "None",
        "role": "assistant"
      }
    }
  ],
  "created": 1745308617,
  "id": "xxxx-yyyy-zzzz",
  "model": "gpt-4.1-nano-2025-04-14",
  "object": "chat.completion",
  "prompt_filter_results": [
    {
      "content_filter_results": {
        "hate": {
          "filtered": "False",
          "severity": "safe"
        },
        "jailbreak": {
          "detected": "False",
          "filtered": "False"
        },
        "self_harm": {
          "filtered": "False",
          "severity": "safe"
        },
        "sexual": {
          "filtered": "False",
          "severity": "safe"
        },
        "violence": {
          "filtered": "False",
          "severity": "safe"
        }
      },
      "prompt_index": 0
    }
  ],
  "system_fingerprint": "xxxx",
  "usage": {
    "completion_tokens": 15,
    "completion_tokens_details": {
      "accepted_prediction_tokens": 0,
      "audio_tokens": 0,
      "reasoning_tokens": 0,
      "rejected_prediction_tokens": 0
    },
    "prompt_tokens": 21,
    "prompt_tokens_details": {
      "audio_tokens": 0,
      "cached_tokens": 0
    },
    "total_tokens": 36
  }
}

Überwachen von Modellroutermetriken

Überwachen der Leistung

Überwachen Sie die Leistung Ihrer Modellrouterbereitstellung in Azure Monitor (AzMon) im Azure-Portal.

  1. Wechseln Sie zur Seite Überwachen>Metriken für Ihre Azure OpenAI-Ressource im Azure-Portal.
  2. Filtern Sie nach dem Bereitstellungsnamen Ihres Modellroutermodells.
  3. Teilen Sie die Metriken bei Bedarf nach zugrunde liegenden Modellen auf.

Kosten überwachen

Sie können die Kosten des Modellrouters überwachen, was die Summe der Kosten für die zugrunde liegenden Modelle ist.

  1. Besuchen Sie die Seite "Ressourcenverwaltung –>Kostenanalyse " im Azure-Portal.
  2. Filtern Sie bei Bedarf nach Azure-Ressource.
  3. Filtern Sie dann nach Bereitstellungsname: Filtern Sie nach "Tag", wählen Sie "Bereitstellung " als Tagtyp aus, und wählen Sie dann den Namen der Modellrouterbereitstellung als Wert aus.

Problembehandlung für Modellrouter

Häufig auftretende Probleme

Thema Ursache Beschluss
Übertragungsratenlimit überschritten Zu viele Anforderungen zum Modellieren der Routerbereitstellung Erhöhen des Token-Kontingents pro Minute oder Implementieren eines Wiederholungsversuches mit exponentiellem Backoff
Unerwartete Modellauswahl Routinglogik hat ein anderes Modell als erwartet ausgewählt Überprüfen der Einstellungen für den Routingmodus; Erwägen Sie die Verwendung einer Modelluntermenge zum Einschränken von Optionen.
Hohe Latenz Router-Overhead plus zugrunde liegende Modellverarbeitung Verwenden Sie den Kostenmodus für latenzempfindliche Workloads; Kleinere Modelle reagieren schneller
Claude-Modell nicht routen Claude-Modelle erfordern eine separate Bereitstellung Bereitstellen von Claude-Modellen aus dem Modellkatalog, bevor sie in einer Teilkonfiguration aktiviert werden.

Fehlercodes

Informationen zu API-Fehlercodes und zur Problembehandlung finden Sie in der Azure OpenAI REST-API-Referenz.

Nächste Schritte