Jednotky modelu v předem přidělené propustnosti

Jednotky modelu jsou jednotka propustnosti, která určuje, kolik práce může koncový bod zpracovat za minutu. Při vytváření nového vyhrazeného koncového bodu s propustností určíte, kolik jednotek modelu chcete přidělit pro každý model, pro který je poskytován.

Množství práce potřebné ke zpracování jednotlivých požadavků na koncový bod závisí na velikosti vstupu i vygenerovaného výstupu. S rostoucím počtem vstupních a výstupních tokenů se zvyšuje i množství práce potřebné ke zpracování požadavku. Generování výstupních tokenů je náročnější na prostředky než zpracování vstupních tokenů. Práce potřebná pro každý požadavek roste nelineárním způsobem, protože se zvýší počet vstupních nebo výstupních tokenů, což znamená, že u daného množství jednotek modelu může koncový bod zpracovat jednu z těchto možností:

Několik malých požadavků najednou
Méně požadavků na dlouhý kontext před dosažením plné kapacity.

Například se střední úlohou se vstupními tokeny 3500 a 300 výstupními tokeny můžete odhadnout propustnost tokenů za sekundu pro daný počet jednotek modelu:

Model	Jednotky modelu	Odhadované tokeny za sekundu
Llama 4 Maverick	50	3250

Modely, které používají jednotky modelu

Následující modely používají jednotky modelů ke zřízení kapacity odvozování:

OpenAI GPT OSS 120B
OpenAI GPT OSS 20B
Google Gemma 3 12B
Meta Llama 4 Maverick (Preview)

Poznámka:

Koncové body pro obsluhu modelů, které obsluhují modely z následujících starších skupin modelů, zajišťují kapacitu pro odvozování na základě tokenů za sekundu.

Meta Llama 3.3
Meta Llama 3.2 3B
Meta Llama 3.2 1B
Meta Llama 3.1
GTE v1.5 (angličtina)
BGE v1.5 (angličtina)
DeepSeek R1 (není k dispozici v katalogu Unity)
Meta Llama 3
Meta Llama 2
DBRX
Mistral
Mixtral
MPT

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-11-06

Sdílet prostřednictvím

Jednotky modelu v předem přidělené propustnosti

Modely, které používají jednotky modelu

Váš názor

Další materiály