Sdílet prostřednictvím


Typy nasazení Azure OpenAI

Azure OpenAI poskytuje zákazníkům volby ve struktuře hostování, která odpovídá jejich obchodním vzorům a vzorům využití. Služba nabízí dva hlavní typy nasazení: standardní a zřízené. Standard se nabízí s možností globálního nasazení a směrováním provozu globálně za účelem zajištění vyšší propustnosti. Zřizování se také nabízí s možností globálního nasazení, která zákazníkům umožňuje nakupovat a nasazovat zřízené jednotky propustnosti napříč globální infrastrukturou Azure. Všechna nasazení můžou provádět úplně stejné operace odvozování, ale fakturace, škálování a výkon se podstatně liší. V rámci návrhu řešení budete muset provést dvě klíčová rozhodnutí:

  • Požadavky na rezidenci dat: globální a regionální prostředky
  • Objem volání: standardní vs. zřízený

Globální a regionální typy nasazení

Pro standardní a zřízená nasazení máte možnost dvou typů konfigurací v rámci vašeho prostředku – globální nebo regionální. Globální standard je doporučeným výchozím bodem.

Globální nasazení využívají globální infrastrukturu Azure, dynamicky směrují provoz zákazníků do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. To znamená, že získáte nejvyšší počáteční limity propustnosti a nejlepší dostupnost modelu v globálním prostředí a zároveň zajistíte naši smlouvu SLA pro dostupnost a nízkou latenci. U úloh s velkým objemem nad určenými úrovněmi využití na úrovni Standard a Global Standard můžete zaznamenat zvýšenou latenci. Zákazníkům, kteří vyžadují nižší odchylku latence při velkém využití úloh, doporučujeme zakoupit zřízenou propustnost.

Naše globální nasazení budou prvním místem pro všechny nové modely a funkce. Zákazníci s velmi velkými požadavky na propustnost by měli zvážit naši nabídku zřízeného nasazení.

Typy nasazení

Azure OpenAI nabízí tři typy nasazení. Poskytují různé úrovně funkcí, které poskytují kompromisy pro propustnost, smlouvy SLA a cenu. Níže je souhrn možností, za kterými následuje podrobnější popis jednotlivých možností.

Oběť Global-Batch Global-Standard Global-Provisioned Standard Zřízené
Nejvhodnější pro Bodování offline

Úlohy, které nejsou citlivé na latenci, a je možné je dokončit v hodinách.

Pro případy použití, které nemají požadavky na rezidenci zpracování dat.
Doporučené výchozí místo pro zákazníky.

Global-Standard bude mít vyšší výchozí kvótu a větší počet dostupných modelů než Standard.
Bodování v reálném čase pro velký konzistentní objem Zahrnuje nejvyšší závazky a limity. Pro případy použití, které nemají požadavky na rezidenci dat. Pro zákazníky s požadavky na rezidenci dat. Optimalizované pro nízký až střední objem. Bodování v reálném čase pro velký konzistentní objem Zahrnuje nejvyšší závazky a limity. Pro případy použití s požadavky na rezidenci dat
Jak to funguje Offline zpracování prostřednictvím souborů Provoz může být směrován kdekoli na světě. Provoz může být směrován kdekoli na světě.
Začínáme Global-Batch Nasazení modelu Zřízení onboardingu Nasazení modelu Zřízení onboardingu
Náklady Nejnákladnější možnost
50% nižší náklady v porovnání s cenami Global Standard. Přístup ke všem novým modelům s většími přiděleními kvót
Ceny globálního nasazení Může docházet k úsporám nákladů za konzistentní využití Regionální ceny Může docházet k úsporám nákladů za konzistentní využití
Co získáte Významná sleva ve srovnání s global standardem Snadný přístup ke všem novým modelům s nejvyššími výchozími limity plateb za volání.

Zákazníci s vysokým objemem využití můžou zaznamenat vyšší variabilitu latence.
Přístup k vysoké a předvídatelné propustnosti napříč globální infrastrukturou Azure Určete propustnost na PTU pomocí poskytnuté kalkulačky kapacity. Snadný přístup pomocí smlouvy SLA pro dostupnost. Optimalizované pro úlohy s nízkým až středním objemem s vysokou nárazovou zátěží.

Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence.
Regionální přístup s velmi vysokou a předvídatelnou propustností. Určení propustnosti na PTU pomocí poskytnuté kalkulačky kapacity
Co nedostanete ❌Výkon volání v reálném čase

❌Záruka zpracování dat

Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Další informace o rezidenci dat
❌Záruka zpracování dat

Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Další informace o rezidenci dat
❌Flexibilita plateb za volání

❌Záruka zpracování dat

Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Další informace o rezidenci dat
❌Vysoká latence s vysokým objemem s nízkou latencí ❌Flexibilita plateb za volání
Latence volání Nejde použít (asynchronní proces založený na souborech) Optimalizované pro volání v reálném čase a nízké až střední využití svazku. Zákazníci s vysokým objemem využití můžou zaznamenat vyšší variabilitu latence. Prahová hodnota nastavená na model Optimalizované pro volání v reálném čase a vysoké využití objemu. Optimalizované pro volání v reálném čase a nízké až střední využití svazku. Zákazníci s vysokým objemem využití můžou zaznamenat vyšší variabilitu latence. Prahová hodnota nastavená na model Optimalizované pro volání v reálném čase a vysoké využití objemu.
Název skladové položky v kódu GlobalBatch GlobalStandard GlobalProvisionedManaged Standard ProvisionedManaged
Model fakturace Platba za token Platba za token Hodinová fakturace s volitelným nákupem měsíčních nebo ročních rezervací Platba za token Hodinová fakturace s volitelným nákupem měsíčních nebo ročních rezervací

Zřízené

Zřízená nasazení umožňují zadat požadovanou propustnost v nasazení. Služba pak přidělí potřebnou kapacitu zpracování modelu a zajistí, že je pro vás připravená. Propustnost se definuje z hlediska zřízených jednotek propustnosti (PTU), což je normalizovaný způsob reprezentace propustnosti pro vaše nasazení. Každý pár verze modelu vyžaduje k nasazení a poskytování různých objemů propustnosti na PTU různé množství PTU. Další informace najdete v článku o konceptech zřízené propustnosti.

Standard

Standardní nasazení poskytují model fakturace plateb za volání u zvoleného modelu. Poskytuje nejrychlejší způsob, jak začít, protože platíte jenom za to, co využíváte. Modely dostupné v jednotlivých oblastech a propustnost můžou být omezené.

Standardní nasazení jsou optimalizovaná pro úlohy s nízkým až středním objemem s vysokou nárazovou zátěží. Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence.

Globální standard

Důležité

Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Přečtěte si další informace o rezidenci dat.

Globální nasazení jsou k dispozici ve stejných prostředcích Azure OpenAI jako jiné než globální typy nasazení, ale umožňují využít globální infrastrukturu Azure k dynamickému směrování provozu do datacentra s nejlepší dostupností pro každou žádost. Globální standard poskytuje nejvyšší výchozí kvótu a eliminuje nutnost vyrovnávat zatížení napříč několika prostředky.

Zákazníci s vysokým objemem můžou zaznamenat větší variabilitu latence. Prahová hodnota je nastavená pro každý model. Další informace najdete na stránce kvót. Pro aplikace, které vyžadují nižší odchylku latence při velkém využití úloh, doporučujeme zakoupit zřízenou propustnost.

Globální zřízeno

Důležité

Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Přečtěte si další informace o rezidenci dat.

Globální nasazení jsou k dispozici ve stejných prostředcích Azure OpenAI jako jiné než globální typy nasazení, ale umožňují využít globální infrastrukturu Azure k dynamickému směrování provozu do datacentra s nejlepší dostupností pro každou žádost. Globální zřízená nasazení poskytují rezervovanou kapacitu pro zpracování modelů pro vysokou a předvídatelnou propustnost pomocí globální infrastruktury Azure.

Globální dávka

Důležité

Neaktivní uložená data zůstávají v určené geografické oblasti Azure, zatímco data se můžou zpracovávat pro odvozování v libovolném umístění Azure OpenAI. Přečtěte si další informace o rezidenci dat.

Globální dávka je navržená tak, aby efektivně zpracovávala úlohy rozsáhlého a vysokoobjemového zpracování. Zpracování asynchronních skupin požadavků s samostatnou kvótou s 24hodinovým cílovým turnaroundem s 50% nižšími náklady než globální standard. Při dávkovém zpracování místo odeslání jednoho požadavku v jednom souboru odešlete velký počet požadavků. Globální dávkové požadavky mají samostatnou kvótu front tokenů, aby nedošlo k přerušení online úloh.

Mezi klíčové případy použití patří:

  • Rozsáhlé zpracování dat: Paralelní rychlá analýza rozsáhlých datových sad

  • Generování obsahu: Umožňuje vytvářet velké objemy textu, jako jsou popisy produktů nebo články.

  • Kontrola a shrnutí dokumentů: Automatizujte kontrolu a shrnutí dlouhých dokumentů.

  • Automatizace zákaznické podpory: Zpracování mnoha dotazů současně za účelem rychlejších odpovědí

  • Extrakce a analýza dat: Extrahování a analýza informací z obrovského množství nestrukturovaných dat

  • Úlohy zpracování přirozeného jazyka (NLP): Provádění úkolů, jako je analýza mínění nebo překlad velkých datových sad

  • Marketing a přizpůsobení: Vygenerujte přizpůsobený obsah a doporučení ve velkém měřítku.

Jak zakázat přístup ke globálním nasazením ve vašem předplatném

Služba Azure Policy pomáhá vynutit standardy organizace a vyhodnotit dodržování předpisů s podporou škálování. Skrze řídicí panel dodržování předpisů nabízí agregované zobrazení sloužící k vyhodnocení celkového stavu prostředí s možností přejít k podrobnostem jednotlivých prostředků a podrobnostem zásad. Napomáhá tomu, aby prostředky dodržovaly předpisy, a sice prostřednictvím hromadné nápravy existujících prostředků a automatické nápravy nových prostředků. Přečtěte si další informace o službě Azure Policy a konkrétních integrovaných ovládacích prvcích pro služby AI.

Pomocí následujících zásad můžete zakázat přístup k globálním standardním nasazením Azure OpenAI. Pokud chcete zakázat přístup k globálnímu zřízenému nebo globálnímu dávkovému nasazení Azure, nahraďte GlobalStandard GlobalProvisionedManaged názvem skladové položky nebo GlobalBatch pro zamýšlený název skladové položky.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Modely nasazení

Snímek obrazovky znázorňující dialogové okno nasazení modelu v Azure OpenAI Studiu se třemi zvýrazněnými typy nasazení

Další informace o vytváření prostředků a nasazování modelů najdete v průvodci vytvořením prostředků.

Viz také