Sdílet prostřednictvím


Nasazení jemně vyladěného modelu pro odvozování

Jakmile je model jemně vyladěný, můžete ho nasadit a použít ho ve vlastní aplikaci.

Když model nasadíte, zpřístupníte ho pro odvozování a bude se účtovat hodinový poplatek za hostování. Jemně vyladěné modely se ale dají ukládat v Microsoft Foundry bez poplatků, dokud je nebudete připravení použít.

Azure OpenAI nabízí volby typů nasazení pro jemně vyladěné modely ve struktuře hostování, které odpovídají různým vzorům podnikání a použití: Standard, Global Standard (Preview) a Zřízená propustnost (Preview). Přečtěte si další informace o typech nasazení pro jemně vyladěné modely a koncepty všech typů nasazení.

Nasadit jemně vyladěný model

Pokud chcete nasadit vlastní model, vyberte vlastní model, který chcete nasadit, a pak vyberte Nasadit.

Otevře se dialogové okno Nasadit model . V dialogovém okně zadejte název nasazení a pak výběrem možnosti Vytvořit spusťte nasazení vlastního modelu.

Snímek obrazovky, který ukazuje, jak nasadit vlastní model na portálu Foundry

Průběh nasazení můžete sledovat v podokně Nasazení na portálu Foundry.

Uživatelské rozhraní nepodporuje nasazení mezi oblastmi, zatímco Python SDK nebo REST podporuje.

Important

Po nasazení přizpůsobeného modelu se nasazení odstraní, pokud nasazení zůstane neaktivní po dobu delší než patnáct (15) dnů. Nasazení přizpůsobeného modelu je neaktivní, pokud byl model nasazen před více než patnácti (15) dny a během nepřetržitého 15denního období do něj nebyla provedena žádná volání k dokončení nebo dokončení chatu.

Odstranění neaktivního nasazení neodstraní ani neovlivní základní přizpůsobený model a přizpůsobený model je možné kdykoliv znovu nasadit. Jak je popsáno v cenách modelů Azure OpenAI v Microsoft Foundry, každý přizpůsobený (jemně vyladěný) model, který je nasazen, má hodinové náklady na hosting bez ohledu na to, zda se k modelu provádějí volání pro dokončení nebo volání pro dokončení chatu. Další informace o plánování a správě nákladů pomocí Azure OpenAI najdete v doprovodných materiálech v tématu Plánování správy nákladů na Azure OpenAI.

Použijte nasazený upravený model

Po nasazení vlastního modelu ho můžete použít jako jakýkoli jiný nasazený model. Pomocí dětského hřiště na portálu Foundry můžete experimentovat s novým nasazením. Stejné parametry můžete dál používat s vlastním modelem, například temperature a max_tokens, stejně jako u jiných nasazenýchmodelůch

Snímek obrazovky podokna Playground v portálu Foundry se zvýrazněnými sekcemi.

Ukládání promptů do mezipaměti

Doladění Azure OpenAI podporuje ukládání výzev do mezipaměti u vybraných modelů. Ukládání do mezipaměti umožňuje snížit celkovou latenci požadavků a náklady na delší výzvy, které mají na začátku výzvy stejný obsah. Další informace o ukládání výzev do mezipaměti najdete v tématu Začínáme s ukládáním výzev do mezipaměti.

Typy nasazení

Vyladění Azure OpenAI podporuje následující typy nasazení.

Standard

Standardní nasazení poskytují model fakturace formou průběžných plateb za token s rezidencí dat omezenou na nasazenou oblast.

Models Východní USA 2 Střed USA – sever Švédsko – střed
o4-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4o
GPT-4o-mini

Global Standard

Globální standard optimalizovaná nasazení nabízí úspory nákladů, ale váhy vlastního modelu mohou být dočasně uloženy mimo geografickou oblast vašeho prostředku Azure OpenAI.

Globální standardní nasazení jsou k dispozici ve všech oblastech Azure OpenAI pro následující modely:

  • o4-mini
  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • GPT-4o
  • GPT-4o-mini

Snímek obrazovky globální standardní uživatelské zkušenosti při nasazení s doladěným modelem

Vývojářská úroveň

Jemně vyladěná nasazení pro vývojáře nabízejí podobné prostředí jako Global Standard bez hodinového poplatku za hostování, ale nenabízí smlouvu SLA o dostupnosti. Nasazení pro vývojáře je navrženo pro vyhodnocení modelových kandidátů, nikoli pro produkční použití.

Nasazení pro vývojáře jsou k dispozici ve všech regionech Azure OpenAI pro následující modely:

  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • o4-mini

Zřízená propustnost

Models Střed USA – sever Švédsko – střed
GPT-4.1
GPT-4o
GPT-4o-mini

Zřízená nasazení s jemně vyladěnou propustností nabízejí předvídatelný výkon pro agenty a aplikace citlivé na latenci. Používají stejnou kapacitu regionální provizované propustnosti (PTU) jako základní modely, takže pokud už máte kvótu PTU v jednotlivých oblastech, můžete váš vyladěný model nasadit v oblastech podpory.

Vyčistěte své nasazení

Pokud chcete odstranit nasazení, použijte Deployments - Delete REST API a odešlete příkaz HTTP DELETE do prostředku nasazení. Stejně jako při vytváření nasazení musíte zahrnout následující parametry:

  • ID předplatného Azure
  • Název skupiny prostředků Azure
  • Název prostředku Azure OpenAI
  • Název nasazení, které se má odstranit

Níže je příklad rozhraní REST API pro odstranění nasazení:

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>?api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

Nasazení můžete také odstranit na portálu Foundry nebo použít Azure CLI.

Další kroky