Udostępnij za pośrednictwem


Dołączanie aprowizowanych jednostek przepływności

W tym artykule przedstawiono proces dołączania do aprowizowanych jednostek przepływności (PTU). Po zakończeniu początkowego dołączania zalecamy zapoznanie się z przewodnikiem wprowadzenie do jednostki PTU.

Kiedy należy używać aprowizowanych jednostek przepływności (PTU)

Należy rozważyć przejście z płatności zgodnie z rzeczywistym użyciem do aprowizowanej przepływności, jeśli masz dobrze zdefiniowane, przewidywalne wymagania dotyczące przepływności. Zazwyczaj dzieje się tak, gdy aplikacja jest gotowa do produkcji lub została już wdrożona w środowisku produkcyjnym i istnieje wiedza na temat oczekiwanego ruchu. Dzięki temu użytkownicy mogą dokładnie prognozować wymaganą pojemność i unikać nieoczekiwanych rozliczeń.

Typowe scenariusze ptU

  • Aplikacja gotowa do produkcji lub w środowisku produkcyjnym.
  • Aplikacja, która ma przewidywalne oczekiwania dotyczące pojemności/użycia.
  • Aplikacja ma wymagania dotyczące czasu rzeczywistego/opóźnienia.

Uwaga

W przypadku wywoływania funkcji i użycia agenta użycie tokenu może być zmienne. Przed migracją obciążeń do jednostek PTU należy szczegółowo zrozumieć oczekiwane użycie tokenów na minutę (TPM).

Ustalanie rozmiaru i szacowanie: aprowizowanie i aprowizowanie globalne

Określenie odpowiedniej ilości aprowizowanej przepływności lub jednostek PTU, które są wymagane dla obciążenia, jest niezbędnym krokiem do optymalizacji wydajności i kosztów. W tej sekcji opisano sposób korzystania z narzędzia do planowania pojemności usługi Azure OpenAI. Narzędzie zapewnia oszacowanie wymaganej jednostki PTU, aby zaspokoić potrzeby obciążenia.

Szacowanie aprowizowanej przepływności i kosztów

Aby uzyskać szybkie oszacowanie obciążenia, otwórz planistę pojemności w programie Azure OpenAI Studio. Planista pojemności jest w obszarze Aprowizowane przydziały>zarządzania>.

Opcja Aprowizowana i planista pojemności są dostępne tylko w niektórych regionach w okienku Limit przydziału, jeśli ta opcja nie jest widoczna, ustawienie regionu przydziału na Szwecja Środkowa spowoduje udostępnienie tej opcji. Wprowadź następujące parametry na podstawie obciążenia.

Dane wejściowe opis
Model Model OpenAI, którego planujesz użyć. Na przykład: GPT-4
Wersja Wersja modelu, którego planujesz użyć, na przykład 0614
Szczytowe wywołania na minutę Liczba wywołań na minutę, które mają być wysyłane do modelu
Tokeny w wywołaniu monitu Liczba tokenów w wierszu polecenia dla każdego wywołania modelu. Wywołania z większymi monitami wykorzystują więcej wdrożenia PTU. Obecnie ten kalkulator zakłada pojedynczą wartość monitu w przypadku obciążeń o szerokiej wariancji. Zalecamy przeprowadzenie testów porównawczych wdrożenia w ruchu w celu określenia najdokładniejszego oszacowania jednostek PTU potrzebnych do wdrożenia.
Tokeny w odpowiedzi modelu Liczba tokenów wygenerowanych na podstawie każdego wywołania modelu. Wywołania o większych rozmiarach generacji będą korzystać z większej liczby wdrożeń PTU. Obecnie ten kalkulator zakłada pojedynczą wartość monitu w przypadku obciążeń o szerokiej wariancji. Zalecamy przeprowadzenie testów porównawczych wdrożenia w ruchu w celu określenia najdokładniejszego oszacowania jednostek PTU potrzebnych do wdrożenia.

Po wprowadzeniu wymaganych szczegółów wybierz przycisk Oblicz w kolumnie wyjściowej.

Wartości w kolumnie wyjściowej to szacowana wartość jednostek PTU wymaganych dla podanych danych wejściowych obciążenia. Pierwsza wartość wyjściowa reprezentuje szacowane jednostki PTU wymagane dla obciążenia zaokrąglone do najbliższego przyrostu skali PTU. Druga wartość wyjściowa reprezentuje nieprzetworzone szacowane jednostki PTU wymagane dla obciążenia. Sumy tokenów są obliczane przy użyciu następującego równania: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Zrzut ekranu przedstawiający stronę docelową programu Azure OpenAI Studio.

Uwaga

Kalkulator pojemności udostępnia oszacowanie na podstawie prostych kryteriów wejściowych. Najdokładniejszym sposobem określenia pojemności jest porównanie wdrożenia z obciążeniem reprezentującym dla danego przypadku użycia.

Opis modelu zakupu aprowizowanej przepływności

Aprowizowane i globalne aprowizowanie w usłudze Azure OpenAI są kupowane na żądanie co godzinę na podstawie liczby wdrożonych jednostek PTU, z znacznym rabatem na terminy dostępne za pośrednictwem zakupu rezerwacji platformy Azure.

Model godzinowy jest przydatny w przypadku krótkoterminowych potrzeb wdrażania, takich jak weryfikowanie nowych modeli lub uzyskiwanie pojemności na maratonie hackatonu.  Jednak rabaty oferowane przez rezerwację platformy Azure dla usługi Azure OpenAI Provisioned i Global Provisioned są znaczne, a większość klientów z spójnym długoterminowym użyciem znajdzie model zarezerwowany, który będzie lepszym rozwiązaniem.

Uwaga

Aprowizowani klienci usługi Azure OpenAI dołączony przed sierpniową aktualizacją samoobsługową używają modelu zakupu o nazwie Model zobowiązania. Ci klienci mogą nadal używać tego starszego modelu zakupu wraz z modelem zakupu godzinowo/rezerwacji. Model zobowiązania nie jest dostępny dla nowych klientów. Aby uzyskać szczegółowe informacje na temat modelu zakupu zobowiązania i opcji współistnienia i migracji, zobacz aktualizację z sierpnia dla usługi Azure OpenAI Provisioned.

Użycie godzinowe

Aprowizowane i globalne wdrożenia aprowizowane są naliczane za stawkę godzinową ($/PTU/hr) dla liczby wdrożonych jednostek PTU.  Na przykład za wdrożenie 300 PTU będą naliczane opłaty godzinowe 300.  Wszystkie ceny usługi Azure OpenAI są dostępne w kalkulatorze cen platformy Azure.

Jeśli wdrożenie istnieje przez część godziny, otrzyma opłatę proporcjonalną na podstawie liczby minut, przez które została wdrożona w ciągu godziny.  Na przykład wdrożenie, które istnieje przez 15 minut w ciągu godziny, otrzyma 1/4 godzinę opłaty godzinowej. 

Jeśli rozmiar wdrożenia zostanie zmieniony, koszty wdrożenia zostaną dostosowane do nowej liczby jednostek PTU.

Diagram przedstawiający rozliczenia godzinowe.

Płacenie za aprowizowane i globalne aprowizowania wdrożeń co godzinę jest idealne dla scenariuszy wdrażania krótkoterminowego.  Na przykład: Test porównawczy jakości i wydajności nowych modeli lub tymczasowe zwiększenie pojemności PTU w celu pokrycia wydarzenia, takiego jak maraton hackathon. 

Klienci, którzy wymagają długoterminowego użycia aprowizowania i globalnych wdrożeń aprowizowania, mogą jednak płacić znacznie mniej miesięcznie, kupując rabat terminowy za pośrednictwem rezerwacji platformy Azure, zgodnie z opisem w następnej sekcji.

Uwaga

Nie zaleca się skalowania wdrożeń produkcyjnych zgodnie z ruchem przychodzącym i płacenia za nie wyłącznie godzinowo. Istnieją dwa powody takiego działania:

  • Oszczędności związane z kosztami osiągnięte przez zakup rezerwacji platformy Azure dla usługi Azure OpenAI są znaczące i w wielu przypadkach utrzymanie rozmiaru wdrożenia dla pełnego woluminu produkcyjnego płatnego za pośrednictwem rezerwacji niż skalowanie wdrożenia przy użyciu ruchu przychodzącego.
  • Nieużywany przydział aprowizacji (PTU) nie gwarantuje, że pojemność będzie dostępna do obsługi zwiększania rozmiaru wdrożenia, jeśli jest to wymagane. Limit przydziału ogranicza maksymalną liczbę jednostek PTU, które można wdrożyć, ale nie jest to gwarancja pojemności. Aprowizowana pojemność dla każdego regionu i dynamicznie zmienia się w ciągu dnia i może być niedostępna, jeśli jest to wymagane. W związku z tym zaleca się utrzymanie stałego wdrożenia w celu pokrycia potrzeb związanych z ruchem (płatnych za pośrednictwem rezerwacji).
  • Opłaty za wdrożenia w usuniętym zasobie będą kontynuowane do momentu przeczyszczania zasobu. Aby temu zapobiec, usuń wdrożenie zasobu przed usunięciem zasobu. Aby uzyskać więcej informacji, zobacz Odzyskiwanie lub przeczyszczanie usuniętych zasobów usług Azure AI.

Rezerwacje platformy Azure dla aprowizowania usługi Azure OpenAI i aprowizacji globalnej

Rabaty na cenę użycia godzinowego można uzyskać, kupując rezerwację platformy Azure dla aprowizowania usługi Azure OpenAI i aprowizowaną globalnie. Rezerwacja platformy Azure to mechanizm rabatu na terminy współużytkowany przez wiele produktów platformy Azure. Na przykład obliczenia i usługa Cosmos DB. W przypadku aprowizowania usługi Azure OpenAI i aprowizacji globalnej rezerwacja zapewnia rabat za zobowiązanie się do płatności za stałą liczbę jednostek PTU w okresie jednego miesiąca lub jednego roku. 

  • Rezerwacje platformy Azure są kupowane za pośrednictwem witryny Azure Portal, a nie za pośrednictwem witryny Azure OpenAI Studio Link do witryny Azure Reservation Portal.

  • Rezerwacje są kupowane w regionie i mogą być elastycznie ograniczone do użycia z grupy wdrożeń. Zakresy rezerwacji obejmują:

    • Poszczególne grupy zasobów lub subskrypcje

    • Grupa subskrypcji w grupie zarządzania

    • Wszystkie subskrypcje na koncie rozliczeniowym

  • Nowe rezerwacje można kupić, aby obejmowały ten sam zakres co istniejące rezerwacje, aby umożliwić rabat na nowe aprowizowane wdrożenia. Zakres istniejących rezerwacji można również zaktualizować w dowolnym momencie bez kary, na przykład w celu pokrycia nowej subskrypcji.

  • Rezerwacje można anulować po zakupie, ale środki są ograniczone.

  • Jeśli rozmiar aprowizowanych wdrożeń w zakresie rezerwacji przekracza kwotę rezerwacji, nadwyżka jest naliczana według stawki godzinowej. Jeśli na przykład wdrożenia o wartości 250 jednostek PTU istnieją w zakresie rezerwacji 200 PTU, opłaty za 50 jednostek PTU będą naliczane co godzinę, dopóki rozmiary wdrożenia nie zostaną zmniejszone do 200 jednostek PTU lub zostanie utworzona nowa rezerwacja, aby pokryć pozostałe 50.

  • Rezerwacje gwarantują obniżoną cenę dla wybranego terminu.  Nie rezerwują pojemności usługi ani nie gwarantują, że będzie ona dostępna po utworzeniu wdrożenia. Zdecydowanie zaleca się, aby klienci tworzyli wdrożenia przed zakupem rezerwacji, aby zapobiec nadmiernemu zakupieniu rezerwacji.

Ważne

  • Dostępność pojemności dla wdrożeń modelu jest dynamiczna i często zmienia się w różnych regionach i modelach. Aby zapobiec zakupieniu rezerwacji dla większej liczby jednostek PTU niż można użyć, najpierw utwórz wdrożenia, a następnie kup rezerwację platformy Azure, aby pokryć wdrożone jednostki PTU. To najlepsze rozwiązanie zapewni pełne wykorzystanie rabatu za rezerwację i uniemożliwi zakup zobowiązania terminowego, którego nie można użyć.

  • Wymagania dotyczące roli i zasad dzierżawy platformy Azure do zakupu rezerwacji różnią się od wymagań wymaganych do utworzenia wdrożenia lub zasobu usługi Azure OpenAI. Zweryfikuj autoryzację zakupu rezerwacji z wyprzedzeniem, aby to zrobić. Aby uzyskać więcej informacji, zobacz dokumentację rezerwacji aprowizowanej usługi Azure OpenAI.

Ważne: ustalanie rozmiaru aprowizowania i globalnych rezerwacji aprowizowania usługi Azure OpenAI

Kwoty jednostek PTU w zakupach rezerwacji są niezależne od jednostek PTU przydzielonych w ramach limitu przydziału lub używanego we wdrożeniach. Istnieje możliwość zakupu rezerwacji dla większej liczby jednostek PTU niż w ramach limitu przydziału lub wdrożenia dla żądanego regionu, modelu lub wersji. Środki na nadmierny zakup rezerwacji są ograniczone, a klienci muszą podjąć kroki w celu zapewnienia, że zachowają rozmiary rezerwacji zgodnie z wdrożonymi jednostkami PTU.

Najlepszym rozwiązaniem jest zawsze zakup rezerwacji po utworzeniu wdrożeń. Uniemożliwia to zakup rezerwacji, a następnie ustalenie, że wymagana pojemność nie jest dostępna dla żądanego regionu lub modelu.

Aby pomóc klientom w zakupie prawidłowych kwot rezerwacji. Łączna liczba jednostek PTU w subskrypcji i regionie, które mogą być objęte rezerwacją, znajduje się na stronie Limity przydziału usługi Azure OpenAI Studio. Zobacz komunikat "Jednostki PTU dostępne do rezerwacji".

Zrzut ekranu przedstawiający dostępny limit przydziału jednostek PTU.

Zarządzanie rezerwacjami platformy Azure

Po utworzeniu rezerwacji najlepszym rozwiązaniem jest jego monitorowanie, aby upewnić się, że otrzymuje oczekiwane użycie. Można to zrobić za pośrednictwem witryny Azure Reservation Portal lub usługi Azure Monitor. Szczegółowe informacje na temat tych tematów i innych można znaleźć tutaj:

Następne kroki