Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Router modelu dla rozwiązania Azure AI Foundry to wdrażalny model czatu sztucznej inteligencji, który jest trenowany w celu wybrania najlepszego modelu języka (LLM) w celu odpowiadania na dany monit w czasie rzeczywistym. Oceniając czynniki, takie jak złożoność zapytań, koszt i wydajność, inteligentnie kieruje żądania do najbardziej odpowiedniego modelu. W związku z tym zapewnia wysoką wydajność przy jednoczesnym oszczędzaniu na kosztach obliczeń tam, gdzie to możliwe, wszystkie spakowane jako pojedyncze wdrożenie modelu.
Dlaczego warto używać modelu routera?
Model router inteligentnie wybiera najlepszy wstępny model dla danego polecenia, aby zoptymalizować koszty przy jednoczesnym zachowaniu jakości. Mniejsze i tańsze modele są używane, gdy są wystarczające dla zadania, ale większe i droższe modele są dostępne dla bardziej złożonych zadań. Ponadto modele rozumowania są dostępne dla zadań wymagających złożonego rozumowania, a modele niezwiązane z rozumowaniem są używane w przeciwnym razie. Router modelu zapewnia pojedyncze środowisko wdrażania i czatu, które łączy najlepsze funkcje ze wszystkich podstawowych modeli czatów.
Wersjonowanie
Każda wersja routera modelowego jest skojarzona z określonym zestawem modeli bazowych oraz ich wersjami. Ten zestaw jest ustalony — tylko nowsze wersje routera modelu mogą udostępniać nowe modele podstawowe.
Jeśli wybierzesz opcję Automatyczna aktualizacja w kroku wdrażania (zobacz Zarządzanie modelami), model routera modelu automatycznie aktualizuje się, gdy nowe wersje staną się dostępne. W takim przypadku zestaw modeli bazowych również ulega zmianie, co może mieć wpływ na ogólną wydajność modelu i kosztów.
Modele bazowe
Wersja modelu routera | Modele bazowe (wersja) |
---|---|
2025-05-19 |
GPT-4.1 (2025-04-14 )GPT-4.1-mini ( 2025-04-14 )GPT-4.1-nano ( 2025-04-14 )o4-mini ( 2025-04-16 ) |
Ograniczenia
Ograniczenia zasobów
Zobacz stronę Modele dla dostępności regionu i typów wdrożeń dla modelu routera.
Ograniczenia techniczne
Zobacz Limity i ograniczenia, aby uzyskać informacje o limitach szybkości.
Uwaga / Notatka
Limit okna kontekstowego na stronie Modele jest limitem najmniejszego modelu bazowego. Inne podstawowe modele są zgodne z większymi oknami kontekstu, co oznacza, że wywołanie interfejsu API z większym kontekstem powiedzie się tylko wtedy, gdy monit zostanie skierowany do odpowiedniego modelu, w przeciwnym razie wywołanie zakończy się niepowodzeniem. Aby skrócić okno kontekstowe, możesz wykonać jedną z następujących czynności:
- Podsumuj monit przed przekazaniem go do modelu
- Skrócić polecenie do bardziej istotnych części
- Aby użyć osadzania dokumentów i umożliwić modelowi czatu pobieranie odpowiednich sekcji, zobacz Azure AI Search
Model routera akceptuje dane wejściowe obrazów dla czatów z obsługą obrazu (wszystkie podstawowe modele mogą akceptować dane wejściowe obrazu), ale decyzja dotycząca routingu opiera się wyłącznie na danych wejściowych tekstowych.
Router modelu nie przetwarza danych wejściowych audio.
Informacje o rozliczeniach
W przypadku korzystania z routera modelu obecnie należy płacić tylko za korzystanie z modeli bazowych, które są wykorzystywane do odpowiadania na polecenia: sama funkcja routingu modelu nie wiąże się z żadnymi dodatkowymi opłatami. Od 1 sierpnia będą również naliczane opłaty za użycie routerów modelowych.
Koszty wdrożenia routera modelu można monitorować w witrynie Azure Portal.