Sdílet prostřednictvím


Typy nasazení pro modely Microsoft Foundry

Když nasadíte model v Microsoft Foundry, zvolíte typ nasazení, který určuje:

  • Kde se vaše data zpracovávají (globální, datová zóna nebo jedna oblast)
  • Způsob platby (platba za token nebo rezervovaná kapacita)
  • Charakteristiky výkonu (odchylka latence, limity propustnosti)

Služba nabízí dvě hlavní kategorie: standardní (platba za token) a zřízená (rezervovaná kapacita). V rámci každé kategorie můžete na základě požadavků na dodržování předpisů zvolit globální, datovou zónu nebo regionální zpracování.

Snímek obrazovky s dialogovým oknem nasazení portálu Foundry zobrazující pole pro výběr typu nasazení s vybranou možností Global Standard

Důležité

Data residency pro všechny typy nasazení: Data uložená v klidovém stavu zůstanou v určené geografické oblasti služby Azure. Odvození dat se však zpracovává takto:

  • typy Global: Mohou být zpracovány v libovolné oblasti Azure
  • Typy DataZone : Zpracováno pouze v rámci datové zóny určené Microsoftem (USA nebo EU)
  • Standardní nebo regionální typy: Zpracované v oblasti nasazení

Zjistěte více o ukládání dat.

Porovnání typů nasazení

Typ nasazení Kód skladové položky Zpracování dat Fakturování Nejvhodnější pro
Global Standard GlobalStandard Libovolná oblast Azure Platba za každý token Obecné úlohy, nejvyšší kvóta
Globální alokace GlobalProvisionedManaged Libovolná oblast Azure Rezervovaný PTU Předvídatelná vysoká propustnost
Global Batch GlobalBatch Libovolná oblast Azure 50% sleva, 24 hodin Velké asynchronní úlohy
Standard datové zóny DataZoneStandard V rámci datové zóny Platba za každý token Dodržování předpisů v datových zónách EU/USA
Zřízená datová zóna DataZoneProvisionedManaged V rámci datové zóny Rezervovaný PTU Datová zóna + předvídatelná propustnost
Dávka pro datovou zónu DataZoneBatch V rámci datové zóny 50% sleva Velké asynchronní úlohy s datovou zónou
Standard Standard Jedna oblast Platba za každý token Regionální dodržování předpisů, nízký objem
Regionálně zřízeno ProvisionedManaged Jedna oblast Rezervovaný PTU Regionální dodržování předpisů a propustnost
Vývojář DeveloperTier Libovolná oblast Azure Platba za každý token Pouze jemně vyladěné vyhodnocení modelu

Poznámka:

Ne všechny modely podporují všechny typy nasazení. Zkontrolujte dostupnost Foundry Models prodávaných přímo Azure podle typu nasazení a oblasti.

Poznámka:

Záruky SLA se liší podle druhu implementace. Zřízené typy poskytují zaručenou propustnost a nižší odchylku latence. Standardní typy nabízejí službu s maximálním úsilím. Nasazení vývojářů nezahrnují smlouvu SLA. Podrobnosti najdete v Azure SLA pro Azure OpenAI Service.

Návod

Podrobné informace o cenách najdete v části Azure OpenAI Service pricing.

Volba správného typu nasazení

K výběru typu nasazení použijte následující kritéria:

Podle požadavku na rezidenci dat

  • Žádná omezení: Použití globálního standardu nebo globálního zajištění
  • Datová zóna EU: Použití standardu DataZone nebo DataZone zřízeného v regionu EU
  • Zóna dat USA: Použijte DataZone Standard nebo DataZone Provisioned v oblasti USA
  • Pouze jedna oblast: Použití standardní nebo regionální zřízené oblasti

Podle vzoru úloh

  • Proměnná, nárazový provoz: Použití standardního nebo globálního standardu (platba za token)
  • Konzistentní vysoký objem: Použití zřízených typů (rezervovaná kapacita)
  • Velké dávkové úlohy (nerozlišované podle času):: Používejte globální dávku nebo službu DataZone Batch (50% úspory nákladů)
  • Vyhodnocení doladěného modelu: Použijte možnost Developer (bez SLA, s nejnižšími náklady)

Podle požadavku na latenci

  • Vyžaduje se odchylka nízké latence: Použití zřízených typů
  • Přijatelná odchylka latence: Použití standardních typů

Umístění zpracování dat

Pro standardní nasazení existují tři možnosti: globální, datová zóna a Azure zeměpisné oblasti. Pro nasazení s alokovanými prostředky existují dvě možnosti: globální a zeměpisná oblast Azure. Globální standard je běžným výchozím bodem pro většinu úloh.

Globální nasazení

Globální nasazení používají globální infrastrukturu Azure k dynamickému směrování provozu do dostupných datacenter. Globální nasazení nabízejí nejvyšší limity počáteční propustnosti a nejširší dostupnost modelu.

U úloh s velkým objemem můžete zaznamenat zvýšenou latenci. Pokud ve velkém vyžadujete nižší odchylku latence, použijte zřízené typy nasazení.

Globální nasazení nejprve přijímají nové modely a funkce.

Nasazení datových zón

U typů globálního nasazení můžou být výzvy a odpovědi zpracovány v libovolné geografické oblasti, ve které je model nasazený. U typů nasazení DataZone se výzvy a odpovědi zpracovávají pouze v zadané zóně dat:

  • United States: Data zpracovávaná kdekoli v USA
  • Evropská unie: Údaje zpracovávané v jakémkoli členském státě EU

Další informace najdete v části „Dostupnost oblasti modelu podle typu nasazení“ v Foundry Models prodávané přímo prostřednictvím Azure.

Poznámka:

Pokud u typů nasazení Global Standard a Data Zone Standard dochází k přerušení provozu v primární oblasti, bude to mít vliv na veškerý provoz původně směrovaný do této oblasti. Další informace najdete v průvodci provozní kontinuitou a zotavením po havárii.

Global Standard

  • Název skladové položky v kódu: GlobalStandard

Globální nasazení standardu používají globální infrastrukturu Azure k dynamickému směrování provozu do dostupných datacenter. Tento typ nasazení poskytuje nejvyšší výchozí kvótu a eliminuje potřebu vyrovnávání zatížení napříč několika prostředky.

Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence. Prahová hodnota je nastavená pro každý model. Další informace najdete na stránce Kvóty. U aplikací, které vyžadují nižší odchylku latence při velkém využití úloh, zvažte zřízenou propustnost.

Global Standard podporuje prioritu zpracování (náhled) pro rychlejší reakční dobu při průběžných platbách. Další informace najdete v Prioritní zpracování pro modely Foundry (náhled).

Globální poskytnuto

  • Název skladové položky v kódu: GlobalProvisionedManaged

Globální nasazení využívající infrastrukturu Azure dynamicky směrují provoz do dostupných datacenter. Tento typ nasazení poskytuje rezervovanou kapacitu zpracování modelů pro předvídatelnou propustnost, která kombinuje globální směrování se zaručenou kapacitou.

Při zřízené propustnosti si zakoupíte pevný počet zřízených jednotek propustnosti (PTU), které zaručují konkrétní úroveň kapacity zpracování. Tento typ nasazení poskytuje nižší a konzistentnější latenci než globální standard. Další informace najdete v tématu Koncepty zřízené propustnosti.

Globální šarže

  • Název skladové položky v kódu: GlobalBatch

Globální služba Batch zpracovává úlohy rozsáhlého a vysokoobjemového zpracování. Asynchronní skupiny požadavků se samostatnou kvótou a cílem zpracování do 24 hodin můžete zpracovat za o 50 % nižší náklady než u globálního standardu. Při dávkovém zpracování místo odesílání jednoho požadavku najednou odešlete velký počet požadavků v jednom souboru. Globální požadavky služby Batch mají samostatnou kvótu tokenů, která zabraňuje přerušení online úloh.

Běžné případy použití:

  • Rozsáhlé zpracování dat: Paralelní analýza datových sad
  • Generování obsahu: Umožňuje vytvářet velké objemy textu, jako jsou popisy produktů nebo články.
  • Kontrola a shrnutí dokumentů: Zpracování a shrnutí dlouhých dokumentů
  • Automatizace zákaznické podpory: Zpracování mnoha dotazů současně
  • Extrakce a analýza dat: Extrahujte a analyzujte informace z velkých objemů nestrukturovaných dat.
  • Úlohy zpracování přirozeného jazyka (NLP): Provádění analýzy mínění nebo překladu u velkých datových sad

Poznámka:

Dávková nasazení obchodují odezvu v reálném čase za úspory nákladů. Dávkové požadavky nemají smlouvu SLA v reálném čase – cílí na dokončení do 24 hodin, ale můžou trvat déle.

Standard datové zóny

  • Název skladové položky v kódu: DataZoneStandard

Nasazení data Zone Standard dynamicky směrují provoz do datacenter v rámci datové zóny definované Microsoftem (USA nebo EU). Tento typ nasazení poskytuje vyšší výchozí kvóty než typy nasazení založené na zeměpisné oblasti a přitom uchovávají data v zadané zóně.

Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence. Prahová hodnota je nastavená pro každý model. Další informace najdete na stránce kvót a omezení. U úloh, které vyžadují nízkou odchylku latence při velkém objemu, zvažte předem nastavené typy nasazení.

Data Zone Standard podporuje prioritní zpracování (Preview) pro rychlejší dobu odezvy na principu průběžných plateb. Další informace najdete v Prioritní zpracování pro modely Foundry (náhled).

Zřízená datová zóna

  • Název skladové položky v kódu: DataZoneProvisionedManaged

Nasazení s rezervovanou zónou dat dynamicky směrují provoz uvnitř datové zóny určené Microsoftem (USA nebo EU) při poskytování rezervované kapacity zpracování modelu. Tento typ nasazení kombinuje dodržování předpisů v zóně dat s vysokou a předvídatelnou propustností.

Dávka datové zóny

  • Název skladové položky v kódu: DataZoneBatch

Nasazení Batch v datové zóně poskytují stejné funkce jako globální Batch, včetně 50% úspor nákladů a 24hodinového dokončení. Provoz se směruje jenom do datacenter v rámci datové zóny definované Microsoftem (USA nebo EU).

Standard

  • Název skladové položky v kódu: Standard

Standardní nasazení používají fakturaci za tokeny. Platíte jenom za to, co spotřebováváte. Dostupné modely v jednotlivých oblastech a propustnost můžou být omezené.

Standardní nasazení jsou vhodná pro pracovní zátěže s nízkým až středním objemem a vysokou nárazovostí. Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence.

Zřízeno v jednotlivých oblastech

  • Název skladové položky v kódu: ProvisionedManaged

Regionální zřízená nasazení vám umožňují specifikovat požadovanou míru propustnosti pro nasazení. Služba pak přidělí potřebnou kapacitu zpracování modelu a zajistí, že je pro vás připravená. Propustnost se definuje z hlediska zřízených jednotek propustnosti (PTU), což je normalizovaný způsob reprezentace propustnosti pro vaše nasazení. Každý pár verzí modelu vyžaduje k nasazení různé množství PTU a poskytuje různé objemy propustnosti podle PTU. Minimální požadavky PTU se liší podle modelu. Aktuální minimum a dostupnou kapacitu najdete v tématu Koncepty zřízené propustnosti.

Vývojář (pro jemně vyladěné modely)

  • Název skladové položky v kódu: DeveloperTier

Typ nasazení Developer je určený jenom pro precizní vyhodnocení modelu. Poskytuje nákladově efektivní testování vlastních modelů, ale nezahrnuje záruky rezidence dat ani smlouvu SLA. Nasazení vývojářů mají pevnou 24hodinovou životnost a po vypršení platnosti se automaticky odstraní. Další informace o použití typu vývojářského nasazení najdete v průvodci vyladěním.

Řešení potíží s nasazením

Běžné problémy při vytváření nebo používání deploymentů:

Problém Příčina Řešení
Typ nasazení není k dispozici. Model nepodporuje vybraný typ. Zkontrolujte dostupnost modelu podle typu nasazení
Překročení kvóty Dosažení limitu předplatného pro tokeny za minutu Vyžádání navýšení kvóty v Azure portal nebo použití jiné oblasti
Oblast není k dispozici Model není nasazený ve vybrané oblasti Výběr oblasti ze seznamu dostupnosti modelu
Zřízená kapacita není k dispozici Žádná kapacita PTU v oblasti Zkuste jinou oblast nebo použijte Global Provisioned pro širší dostupnost.

Omezení kvót podle typu nasazení najdete v tématu Kvóty a limity modelů Foundry.

Omezení typů nasazení pomocí Azure Policy

Azure Policy pomáhá vynucovat standardy organizace a vyhodnocovat dodržování předpisů ve velkém měřítku. Prostřednictvím řídicího panelu dodržování předpisů můžete vyhodnotit celkový stav prostředí a přejít k podrobnostem jednotlivých prostředků podle zásad. Azure Policy také podporuje hromadnou nápravu stávajících prostředků a automatickou nápravu nových prostředků. Vyučte si další informace o Azure Policy a konkrétních integrovaných ovládacích prvcích pro Foundry Tools.

Pomocí následující politiky zakažte přístup k určitému typu nasazení Foundry. Nahraďte GlobalStandard názvem skladové položky pro typ nasazení, který chcete omezit.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}