Sdílet prostřednictvím


Jednotky modelu v předem přidělené propustnosti

Jednotky modelu jsou jednotka propustnosti, která určuje, kolik práce může koncový bod zpracovat za minutu. Při vytváření nového vyhrazeného koncového bodu s propustností určíte, kolik jednotek modelu chcete přidělit pro každý model, pro který je poskytován.

Množství práce potřebné ke zpracování jednotlivých požadavků na koncový bod závisí na velikosti vstupu i vygenerovaného výstupu. S rostoucím počtem vstupních a výstupních tokenů se zvyšuje i množství práce potřebné ke zpracování požadavku. Generování výstupních tokenů je náročnější na prostředky než zpracování vstupních tokenů. Práce potřebná pro každý požadavek roste nelineárním způsobem, protože se zvýší počet vstupních nebo výstupních tokenů, což znamená, že u daného množství jednotek modelu může koncový bod zpracovat jednu z těchto možností:

  • Několik malých požadavků najednou
  • Méně požadavků na dlouhý kontext před dosažením plné kapacity.

Například se střední úlohou se vstupními tokeny 3500 a 300 výstupními tokeny můžete odhadnout propustnost tokenů za sekundu pro daný počet jednotek modelu:

Model Jednotky modelu Odhadované tokeny za sekundu
Llama 4 Maverick 50 3250

Modely, které používají jednotky modelu

Následující modely používají jednotky modelů ke zřízení kapacity odvozování:

  • OpenAI GPT OSS 120B
  • OpenAI GPT OSS 20B
  • Google Gemma 3 12B
  • Meta Llama 4 Maverick (Preview)

Poznámka:

Koncové body pro obsluhu modelů, které obsluhují modely z následujících starších skupin modelů, zajišťují kapacitu pro odvozování na základě tokenů za sekundu.

  • Meta Llama 3.3
  • Meta Llama 3.2 3B
  • Meta Llama 3.2 1B
  • Meta Llama 3.1
  • GTE v1.5 (angličtina)
  • BGE v1.5 (angličtina)
  • DeepSeek R1 (není k dispozici v katalogu Unity)
  • Meta Llama 3
  • Meta Llama 2
  • DBRX
  • Mistral
  • Mixtral
  • MPT