Przydział dynamiczny usługi Azure OpenAI (wersja zapoznawcza)

Limit przydziału dynamicznego to funkcja usługi Azure OpenAI, która umożliwia standardowe wdrożenie (płatność zgodnie z rzeczywistym użyciem) w celu oportunistycznego korzystania z większego limitu przydziału, gdy dostępna jest dodatkowa pojemność. Po wyłączeniu przydziału dynamicznego wdrożenie będzie mogło przetworzyć maksymalną przepływność ustanowioną przez ustawienie Tokeny na minutę (TPM). Po przekroczeniu wstępnie ustawionego modułu TPM żądania będą zwracać odpowiedzi HTTP 429. Po włączeniu dynamicznego limitu przydziału wdrożenie ma możliwość uzyskania większej przepływności przed zwróceniem odpowiedzi 429, co umożliwia wykonywanie większej liczby wywołań wcześniej. Dodatkowe żądania są nadal rozliczane według regularnych stawek cenowych.

Przydział dynamiczny może tymczasowo zwiększyć dostępny limit przydziału: nigdy nie spadnie poniżej skonfigurowanej wartości.

Kiedy należy używać przydziału dynamicznego

Limit przydziału dynamicznego jest przydatny w większości scenariuszy, szczególnie wtedy, gdy aplikacja może korzystać z dodatkowej wydajności oportunistycznej lub sama aplikacja zwiększa szybkość wywoływanego interfejsu API usługi Azure OpenAI.

Zazwyczaj sytuacja, w której można uniknąć dynamicznego limitu przydziału, jest wtedy, gdy aplikacja zapewni niekorzystne środowisko, jeśli limit przydziału jest niestabilny lub zwiększony.

W przypadku przydziału dynamicznego rozważ następujące scenariusze:

  • Przetwarzanie zbiorcze,
  • Tworzenie podsumowań lub osadzania dla rozszerzonej generacji pobierania (RAG),
  • Analiza dzienników w trybie offline na potrzeby generowania metryk i ocen,
  • Badania o niskim priorytcie,
  • Aplikacje, które mają przydzielony niewielki limit przydziału.

Kiedy wchodzi w życie limit przydziału dynamicznego?

Zaplecze usługi Azure OpenAI decyduje, czy, kiedy i ile dodatkowego przydziału dynamicznego jest dodawanych lub usuwanych z różnych wdrożeń. Nie jest on prognozowany ani ogłaszany z wyprzedzeniem i nie jest przewidywalny. Usługa Azure OpenAI umożliwia aplikacji określenie, że jest dostępny większy limit przydziału, odpowiadając za pomocą protokołu HTTP 429 i nie zezwalając na więcej wywołań interfejsu API za pośrednictwem. Aby korzystać z przydziału dynamicznego, kod aplikacji musi mieć możliwość wydawania większej liczby żądań, ponieważ odpowiedzi HTTP 429 stają się rzadkie.

Jak dynamiczny limit przydziału zmienia koszty?

  • Wywołania wykonywane powyżej limitu przydziału podstawowego mają takie same koszty jak zwykłe wywołania.

  • Nie ma dodatkowych kosztów włączenia przydziału dynamicznego we wdrożeniu, chociaż zwiększona przepływność może ostatecznie spowodować zwiększenie kosztów w zależności od ilości ruchu odbieranego przez wdrożenie.

Uwaga

W przypadku przydziału dynamicznego nie ma wymuszania wywołania limitu przydziału lub przepływności "limitu". Usługa Azure OpenAI będzie przetwarzać tyle żądań, ile może przekraczać limit przydziału punktu odniesienia. Jeśli musisz kontrolować szybkość wydatków nawet wtedy, gdy limit przydziału jest mniejszy, kod aplikacji musi odpowiednio wstrzymać żądania.

Jak używać przydziału dynamicznego

Aby użyć przydziału dynamicznego, musisz:

  • Włącz właściwość przydziału dynamicznego we wdrożeniu usługi Azure OpenAI.
  • Upewnij się, że aplikacja może korzystać z dynamicznego limitu przydziału.

Włączanie przydziału dynamicznego

Aby aktywować przydział dynamiczny dla wdrożenia, możesz przejść do właściwości zaawansowanych w konfiguracji zasobu i włączyć:

Screenshot of advanced configuration UI for deployments.

Alternatywnie można ją włączyć programowo za pomocą interfejsu wiersza polecenia platformy az restAzure:

Zastąp wartości {subscriptionId}, {resourceGroupName}, {accountName}i {deploymentName} odpowiednimi wartościami zasobu. W takim przypadku accountName jest równa nazwie zasobu Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Jak mogę wiedzieć, ile limitu przydziału dynamicznego przepływności dodaje się do mojej aplikacji?

Aby monitorować, jak działa, możesz śledzić przepływność aplikacji w usłudze Azure Monitor. W wersji zapoznawczej przydziału dynamicznego nie ma określonej metryki ani dziennika, aby wskazać, czy przydział został dynamicznie zwiększony lub zmniejszony. dynamiczny limit przydziału jest mniej prawdopodobny dla wdrożenia, jeśli działa w intensywnie wykorzystywanych regionach i w godzinach szczytu użycia dla tych regionów.

Następne kroki