Router modelowy dla usługi Azure AI Foundry (wersja zapoznawcza)

2025-07-02

Router modelu dla rozwiązania Azure AI Foundry to wdrażalny model czatu sztucznej inteligencji, który jest trenowany w celu wybrania najlepszego modelu języka (LLM) w celu odpowiadania na dany monit w czasie rzeczywistym. Oceniając czynniki, takie jak złożoność zapytań, koszt i wydajność, inteligentnie kieruje żądania do najbardziej odpowiedniego modelu. W związku z tym zapewnia wysoką wydajność przy jednoczesnym oszczędzaniu na kosztach obliczeń tam, gdzie to możliwe, wszystkie spakowane jako pojedyncze wdrożenie modelu.

Dlaczego warto używać modelu routera?

Model router inteligentnie wybiera najlepszy wstępny model dla danego polecenia, aby zoptymalizować koszty przy jednoczesnym zachowaniu jakości. Mniejsze i tańsze modele są używane, gdy są wystarczające dla zadania, ale większe i droższe modele są dostępne dla bardziej złożonych zadań. Ponadto modele rozumowania są dostępne dla zadań wymagających złożonego rozumowania, a modele niezwiązane z rozumowaniem są używane w przeciwnym razie. Router modelu zapewnia pojedyncze środowisko wdrażania i czatu, które łączy najlepsze funkcje ze wszystkich podstawowych modeli czatów.

Wersjonowanie

Każda wersja routera modelowego jest skojarzona z określonym zestawem modeli bazowych oraz ich wersjami. Ten zestaw jest ustalony — tylko nowsze wersje routera modelu mogą udostępniać nowe modele podstawowe.

Jeśli wybierzesz opcję Automatyczna aktualizacja w kroku wdrażania (zobacz Zarządzanie modelami), model routera modelu automatycznie aktualizuje się, gdy nowe wersje staną się dostępne. W takim przypadku zestaw modeli bazowych również ulega zmianie, co może mieć wpływ na ogólną wydajność modelu i kosztów.

Modele bazowe

Wersja modelu routera	Modele bazowe (wersja)
`2025-05-19`	GPT-4.1 (`2025-04-14`) GPT-4.1-mini (`2025-04-14`) GPT-4.1-nano (`2025-04-14`) o4-mini (`2025-04-16`)

Ograniczenia

Ograniczenia zasobów

Zobacz stronę Modele dla dostępności regionu i typów wdrożeń dla modelu routera.

Ograniczenia techniczne

Zobacz Limity i ograniczenia, aby uzyskać informacje o limitach szybkości.

Uwaga / Notatka

Limit okna kontekstowego na stronie Modele jest limitem najmniejszego modelu bazowego. Inne podstawowe modele są zgodne z większymi oknami kontekstu, co oznacza, że wywołanie interfejsu API z większym kontekstem powiedzie się tylko wtedy, gdy monit zostanie skierowany do odpowiedniego modelu, w przeciwnym razie wywołanie zakończy się niepowodzeniem. Aby skrócić okno kontekstowe, możesz wykonać jedną z następujących czynności:

Podsumuj monit przed przekazaniem go do modelu
Skrócić polecenie do bardziej istotnych części
Aby użyć osadzania dokumentów i umożliwić modelowi czatu pobieranie odpowiednich sekcji, zobacz Azure AI Search

Model routera akceptuje dane wejściowe obrazów dla czatów z obsługą obrazu (wszystkie podstawowe modele mogą akceptować dane wejściowe obrazu), ale decyzja dotycząca routingu opiera się wyłącznie na danych wejściowych tekstowych.

Router modelu nie przetwarza danych wejściowych audio.

Informacje o rozliczeniach

W przypadku korzystania z routera modelu obecnie należy płacić tylko za korzystanie z modeli bazowych, które są wykorzystywane do odpowiadania na polecenia: sama funkcja routingu modelu nie wiąże się z żadnymi dodatkowymi opłatami. Od 1 sierpnia będą również naliczane opłaty za użycie routerów modelowych.

Koszty wdrożenia routera modelu można monitorować w witrynie Azure Portal.

Następny krok

Jak używać modelowego routera