Olvasás angol nyelven

Megosztás a következőn keresztül:


Kiosztott átviteli egységek előkészítése

Ez a cikk végigvezeti a kiépített átviteli egységek (PTU) előkészítésének folyamatán. A kezdeti előkészítés befejezése után javasoljuk, hogy hivatkozz a PTU első lépéseinek útmutatójára.

Mikor érdemes kiosztott átviteli egységeket (PTU) használni?

Érdemes megfontolni, hogy a szabványos üzemelő példányokról a kiépített üzemelő példányokra váltson, ha jól meghatározott, kiszámítható átviteli sebességre és késésre vonatkozó követelményekkel rendelkezik. Ez általában akkor fordul elő, ha az alkalmazás készen áll az éles használatra, vagy már üzembe helyezték az éles környezetben, és tisztában van a várt forgalommal. Így a felhasználók pontosan előre jelezhetik a szükséges kapacitást, és elkerülhetik a váratlan számlázást.

Tipikus PTU-forgatókönyvek

  • Éles vagy éles használatra kész alkalmazás.
  • Olyan alkalmazás, amely kiszámítható kapacitás-/használati elvárásokkal rendelkezik.
  • Egy alkalmazás valós idejű és késésre érzékeny követelményekkel rendelkezik.

Megjegyzés

Függvényhívási és ügynökhasználati esetekben a tokenhasználat változó lehet. A számítási feladatok PTU-ba való migrálása előtt részletesen ismernie kell a várható percenkénti jogkivonatok (TPM) használatát.

Méretezés és becslés: kiépített üzemelő példányok

A kiosztott átviteli sebesség vagy PTU-k megfelelő mennyiségének meghatározása a számítási feladathoz elengedhetetlen lépés a teljesítmény és a költség optimalizálásához. Ha nem ismeri a rendszerszintű átviteli sebesség becsléséhez rendelkezésre álló különböző módszereket, tekintse át a rendszerszintű átviteli sebesség becslésére vonatkozó javaslatokat a teljesítmény- és késési dokumentációnkban. Ez a szakasz azt ismerteti, hogyan használható az Azure OpenAI kapacitáskalkulátorai egy adott számítási feladat támogatásához szükséges PTU-k számának becslésére.

Kiosztott átviteli egységek és költségek becslése

Ha gyors becslést szeretne kapni a számítási feladatról a bemeneti és kimeneti TPM használatával, használja a beépített kapacitástervezőt az üzembe helyezési párbeszéd képernyő üzembe helyezési részletei szakaszában. A beépített kapacitástervező az üzembe helyezési munkafolyamat része, amely megkönnyíti a kvóta méretezését és elosztását egy PTU-üzembe helyezéshez egy adott számítási feladathoz. A TPM-adatok azonosításával és becslésével kapcsolatos további információkért tekintse át a teljesítmény- és késési dokumentációban található javaslatokat.

Miután kitöltötte a bemeneti és kimeneti TPM-adatokat a beépített kapacitáskalkulátorban, a Számítás gombra kattintva megtekintheti a PTU-foglalási javaslatot.

Képernyőkép az üzembehelyezési munkafolyamat PTU-kapacitáskalkulátoráról.

A kiépített kapacitás kérésszintű adatokkal való becsléséhez nyissa meg a kapacitástervezőt az Azure AI Foundryben. A kapacitáskalkulátor a megosztott erőforrások>modellkvótája alatt található, az Azure OpenAI kiépített kvótája.>

A Kiépített beállítás és a kapacitástervező csak bizonyos régiókban érhető el a Kvóta panelen, ha nem látja ezt a beállítást, ha a kvótarégiót Svédország középső régióra állítja, akkor ez a beállítás elérhetővé válik. Adja meg a következő paramétereket a számítási feladat alapján.

Bevitel Leírás
Modell Nyissa meg a használni kívánt OpenAI-modellt. Például: GPT-4
Verzió A használni kívánt modell verziója, például 0614
Csúcshívások percenként A modellnek várhatóan küldött hívások száma percenként
Jogkivonatok az azonnali hívásban A modell minden egyes hívásához tartozó jogkivonatok száma. A nagyobb kéréseket tartalmazó hívások a PTU-telepítés nagyobb részét használják. Ez a kalkulátor jelenleg egyetlen parancssori értéket feltételez, így a nagy szórású számítási feladatok esetében. Javasoljuk, hogy mérje fel az üzemelő példányt a forgalomon, hogy meghatározza az üzembe helyezéshez szükséges PTU legpontosabb becslését.
Jogkivonatok a modell válaszában A modell minden egyes hívásából létrehozott jogkivonatok száma. A nagyobb generációs hívások a PTU-környezet nagyobb részét használják. Ez a kalkulátor jelenleg egyetlen parancssori értéket feltételez, így a nagy szórású számítási feladatok esetében. Javasoljuk, hogy mérje fel az üzemelő példányt a forgalomon, hogy meghatározza az üzembe helyezéshez szükséges PTU legpontosabb becslését.

Miután kitöltötte a szükséges adatokat, válassza a Számítás gombot a kimeneti oszlopban.

A kimeneti oszlop értékei a megadott számítási feladatok bemeneteihez szükséges PTU-egységek becsült értéke. Az első kimeneti érték a számítási feladathoz szükséges becsült PTU-egységeket jelöli, a legközelebbi PTU-méretezési növekményre kerekítve. A második kimeneti érték a számítási feladathoz szükséges nyers becsült PTU-egységeket jelöli. A tokenösszegek kiszámítása a következő egyenlettel történik: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

A kapacitáskalkulátor képernyőképe

Megjegyzés

A kapacitáskalkulátorok egyszerű bemeneti feltételek alapján nyújtanak becslést. A kapacitás meghatározásának legpontosabb módja, ha egy üzembe helyezést egy reprezentációs számítási feladattal mér a használati esethez.

A kiosztott átviteli sebesség vásárlási modelljének ismertetése

Az Azure OpenAI kiépített, a kiépített adatzóna és a globális kiépített szolgáltatás óránkénti rendszerességgel vásárolható meg az üzembe helyezett PTU-k száma alapján, és az Azure Reservations megvásárlásával jelentős időkedvezmény érhető el.

Az óránkénti modell hasznos rövid távú üzembe helyezési igényekhez, például új modellek érvényesítéséhez vagy egy hackathon kapacitásának beszerzéséhez.  Az Azure OpenAI-hoz kiosztott, a kiosztott adatzónához és a globálisan kiosztott Azure Reservation által biztosított kedvezmények azonban jelentősek, és a konzisztens hosszú távú használattal rendelkező ügyfelek többsége egy fenntartott modellt talál jobb értékajánlatnak.

Megjegyzés

Az augusztusi önkiszolgáló frissítés előtt előkészített Azure OpenAI-ügyfelek a Kötelezettségvállalási modell nevű vásárlási modellt használják. Ezek az ügyfelek továbbra is használhatják ezt a régebbi vásárlási modellt az óránkénti/foglalási vásárlási modell mellett. A Kötelezettségvállalási modell nem érhető el az új ügyfelek vagy a 2024 augusztusa után bevezetett új modellek számára. A kötelezettségvállalás vásárlási modelljéről és az egyidejűség és a migrálás lehetőségeiről az Azure OpenAI kiépített augusztusi frissítésében olvashat.

Óránkénti használat

A kiépített, a kiépített adatzóna és a globális kiépített üzemelő példányok óránkénti díjat ($/PTU/óra) számítanak fel az üzembe helyezett PTU-k számával kapcsolatban.  Egy 300 PTU-üzemelő példány például a 300-szoros óránkénti díjért lesz felszámítva.  Az Azure OpenAI összes díjszabása elérhető az Azure díjkalkulátorban.

Ha egy üzemelő példány egy részleges órán keresztül létezik, akkor az óra során üzembe helyezett percek száma alapján arányosított díjat kap.  Egy óránként 15 percig létező üzembe helyezés például az óránkénti díj 1/4-ét kapja meg. 

Ha az üzembe helyezés mérete módosul, az üzembe helyezés költségei az új PTU-k számához igazodnak.

Az óránkénti számlázást bemutató diagram.

A kiépített, az adatzónába tartozó kiépített és a globálisan kiépített üzemelő példányok óránkénti fizetése ideális a rövid távú üzembe helyezési forgatókönyvekhez.  Például: Új modellek minőség- és teljesítménymérése, vagy ideiglenesen megnövelt PTU-kapacitás egy esemény, például hackathon lefedése érdekében. 

Azok az ügyfelek azonban, akik hosszú távú használatot igényelnek a kiépített, az adatzónában kiépített és a globálisan kiépített üzemelő példányok esetében, havonta jelentősen kevesebbet fizetnek, ha a következő szakaszban ismertetett módon az Azure Reservationsen keresztül vásárolnak egy időszaki kedvezményt.

Megjegyzés

Nem ajánlott az éles üzembe helyezéseket a bejövő forgalom alapján skálázni, és csak óránként fizetni. Ennek két oka van:

  • Az Azure OpenAI-foglalások, a kiépített adatzónák és a globális kiépített azure-foglalások megvásárlásával elért költségmegtakarítás jelentős, és sok esetben kevésbé költséges lesz fenntartani egy foglaláson keresztül fizetett teljes üzemi mennyiségre vonatkozó üzembe helyezést, mint az üzembe helyezés bejövő forgalommal való méretezése.
  • A fel nem használt kiosztott kvóta (PTU-k) használata nem garantálja, hogy a kapacitás rendelkezésre áll a telepítés méretének növeléséhez, ha szükséges. A kvóta korlátozza az üzembe helyezhető PTU-k maximális számát, de ez nem kapacitásgarancia. Az egyes régiókhoz és modellekhez kiépített kapacitás a nap folyamán dinamikusan változik, és szükség esetén nem érhető el. Ennek eredményeképpen javasoljuk, hogy fenntartson egy állandó üzemelő példányt, amely fedezi a forgalmi igényeket (foglaláson keresztül fizetve).
  • A törölt erőforrások üzembe helyezésének díjai az erőforrás törléséig folytatódnak. Ennek megakadályozása érdekében törölje az erőforrás üzembe helyezését az erőforrás törlése előtt. További információ: Törölt Azure AI-szolgáltatások erőforrásainak helyreállítása vagy törlése.

Azure Reservations for Azure OpenAI kiépített üzembe helyezések

Az óránkénti használati áron felüli kedvezmények az Azure OpenAI kiosztott, a kiosztott adatzóna és a globális kiosztott Azure-foglalás megvásárlásával érhetők el. Az Azure Reservation számos Azure-termék által megosztott kifejezés-diszkontingens mechanizmus. Például a Compute és a Cosmos DB. Az Azure OpenAI kiépített, a kiépített adatzóna és a globális kiépített szolgáltatás esetében a foglalás kedvezményt biztosít, cserébe pedig fix számú PTU-t fizet egy egy hónapos vagy egyéves időszakra. 

  • Az Azure-foglalások az Azure Portalon keresztül vásárolhatók meg, nem pedig az Azure AI Foundry portál azure-foglalási portálra mutató hivatkozásán keresztül.

  • A foglalások regionálisan vásárolhatók, és rugalmasan alkalmazhatók az üzemelő példányok egy csoportjából származó használatra. A foglalási hatókörök a következők:

    • Egyéni erőforráscsoportok vagy előfizetések

    • Előfizetések csoportja egy felügyeleti csoportban

    • Egy számlázási fiók összes előfizetése

  • Az új foglalások a meglévő foglalásokkal megegyező hatókörre vonatkozóan vásárolhatók meg, hogy lehetővé tegyék az új kiépített üzemelő példányok kedvezményét. A meglévő foglalások hatóköre bármikor, büntetés nélkül is frissíthető, például egy új előfizetés fedezetére.

  • A globális, adatzónás és regionális üzemelő példányok foglalásai nem cserélhetők fel. Minden üzembe helyezési típushoz külön foglalást kell vásárolnia.

  • A foglalások a vásárlás után lemondhatók, de a kreditek korlátozottak.

  • Ha egy foglalás hatókörén belül a kiépített üzemelő példányok mérete meghaladja a foglalás összegét, a többlet óradíjon kerül felszámításra. Ha például egy 200 PTU-foglalás hatókörében 250 PTU-t tartalmazó üzemelő példányok léteznek, óránként 50 PTU kerül felszámításra, amíg az üzembehelyezési méretek 200 PTU-ra nem csökkennek, vagy új foglalás jön létre a fennmaradó 50-re.

  • A foglalások kedvezményes árat garantálnak a kiválasztott kifejezéshez.  Nem foglalnak le kapacitást a szolgáltatásra, és nem garantálják, hogy elérhető lesz az üzembe helyezés létrehozásakor. Erősen ajánlott, hogy az ügyfelek a foglalás megvásárlása előtt hozzon létre üzembe helyezéseket, hogy megakadályozzák a foglalás túlvásárlását.

Fontos

  • A modelltelepítések kapacitásának elérhetősége dinamikus, és gyakran változik régiók és modellek között. Ha meg szeretné akadályozni, hogy a használhatónál több PTU-ra vásároljon foglalást, először hozzon létre üzembe helyezéseket, majd vásárolja meg az Azure Reservationt az üzembe helyezett PTU-k fedezésére. Ez az ajánlott eljárás biztosítja, hogy teljes mértékben kihasználhassa a foglalási kedvezményt, és megakadályozza, hogy olyan lekötést vásároljon, amelyet nem használhat fel.

  • A foglalások megvásárlásához szükséges Azure-szerepkör- és bérlőházirend-követelmények eltérnek az üzemelő példány vagy az Azure OpenAI-erőforrás létrehozásához szükséges követelményekétől. Ellenőrizze, hogy a foglalások vásárlásához szükséges engedély szükséges-e. További részletekért tekintse meg az Azure OpenAI kiépített foglalási dokumentációját .

Fontos: az Azure OpenAI által kiépített foglalások méretezése

A foglalásvásárlások PTU-összegei függetlenek a kvótában lefoglalt vagy az üzemelő példányokban használt PTU-któl. A kvótánál több PTU-ra is vásárolhat foglalást, vagy üzembe helyezheti a kívánt régiót, modellt vagy verziót. A foglalások túlvásárlására vonatkozó kreditek korlátozottak, és az ügyfeleknek lépéseket kell tenniük annak biztosítására, hogy a foglalási méretüket az üzembe helyezett PTU-kkal összhangban tartsák.

Az ajánlott eljárás az, hogy az üzembe helyezések létrehozása után mindig vásároljon foglalást. Ez megakadályozza a foglalás vásárlását, és azt állapítja meg, hogy a szükséges kapacitás nem érhető el a kívánt régióhoz vagy modellhez.

A globális, adatzónás és regionális üzemelő példányok foglalásai nem cserélhetők fel. Minden üzembe helyezési típushoz külön foglalást kell vásárolnia.

Az ügyfelek segítése a megfelelő foglalási összegek megvásárlásában. A foglalással lefedhető előfizetésekben és régiókban található PTU-k teljes száma az Azure AI Foundry Kvóták oldalán található. Tekintse meg a "Foglaláshoz elérhető PTU-k" üzenetet.

Képernyőkép az elérhető PTU-kvótáról.

Azure Reservations kezelése

A foglalás létrehozása után ajánlott megfigyelni, hogy megkapja-e a várt használatot. Ezt az Azure Reservation Portalon vagy az Azure Monitoron keresztül teheti meg. Ezekről a cikkekről és más cikkekről itt olvashat bővebben:

Következő lépések