Automatyczne skalowanie limitów usług sztucznej inteligencji

Ten artykuł zawiera wskazówki dotyczące sposobu, w jaki klienci mogą uzyskiwać dostęp do wyższych limitów szybkości w zasobach usług Azure AI.

Omówienie

Każdy zasób usług Azure AI ma wstępnie skonfigurowaną statyczną szybkość wywołań (transakcje na sekundę), która ogranicza liczbę współbieżnych wywołań, które klienci mogą wykonywać w usłudze zaplecza w danym przedziale czasu. Funkcja automatycznego skalowania automatycznie zwiększa/zmniejsza limity szybkości zasobów klienta na podstawie metryk użycia zasobów niemal w czasie rzeczywistym i metryk pojemności usługi zaplecza.

Wprowadzenie do funkcji automatycznego skalowania

Ta funkcja jest domyślnie wyłączona dla każdego nowego zasobu. Postępuj zgodnie z tymi instrukcjami, aby ją włączyć.

Przejdź do strony zasobu w witrynie Azure Portal i wybierz kartę Przegląd w okienku po lewej stronie. W sekcji Podstawy znajdź wiersz Autoskalowania i wybierz link, aby wyświetlić okienko Autoskaluj Ustawienia i włączyć tę funkcję.

Screenshot of the Azure portal with the autoscale pane on right.

Często zadawane pytania

Czy włączenie funkcji autoskalowania oznacza, że mój zasób nigdy nie zostanie ponownie ograniczony?

Nie, nadal mogą wystąpić 429 błędy dotyczące przekroczenia limitu szybkości. Jeśli aplikacja wyzwoli skok, a zasób zgłasza 429 odpowiedź, autoskalowanie sprawdza dostępną sekcję projekcji pojemności, aby sprawdzić, czy bieżąca pojemność może obsłużyć wzrost limitu szybkości i odpowiedzieć w ciągu pięciu minut.

Jeśli dostępna pojemność jest wystarczająca do zwiększenia, skalowanie automatyczne stopniowo zwiększa limit szybkości zasobu. Jeśli nadal wywołujesz zasób z wysoką szybkością, co powoduje zwiększenie 429 przepustowości, szybkość tpS będzie nadal rosnąć wraz z upływem czasu. Jeśli ta akcja będzie kontynuowana przez co najmniej jedną godzinę, należy osiągnąć maksymalną szybkość (do 1000 TPS) obecnie dostępną w tym czasie dla tego zasobu.

Jeśli dostępna pojemność nie jest wystarczająca do zwiększenia, funkcja autoskalowanie czeka pięć minut i ponownie sprawdza.

Co zrobić, jeśli potrzebuję wyższego domyślnego limitu szybkości?

Domyślnie zasoby usług Azure AI mają domyślny limit szybkości wynoszący 10 TPS. Jeśli potrzebujesz wyższego domyślnego modułu TPS, prześlij bilet, korzystając z linku Nowy wniosek o pomoc techniczną na stronie zasobu w witrynie Azure Portal. Pamiętaj, aby uwzględnić uzasadnienie biznesowe w żądaniu.

Czy ta funkcja zwiększy wydatki na platformę Azure?

Cennik usług AI platformy Azure nie uległ zmianie i można uzyskać do tego dostępu tutaj. Opłaty będą naliczane tylko za pomyślne wywołania do interfejsów API usług Azure AI. Jednak zwiększone limity liczby wywołań oznaczają ukończenie większej liczby transakcji i może zostać wyświetlony wyższy rachunek.

Należy pamiętać o potencjalnych błędach i ich konsekwencjach. Jeśli usterka w aplikacji klienckiej powoduje wywołanie usługi setki razy na sekundę, prawdopodobnie doprowadzi to do znacznie wyższego rachunku, podczas gdy koszt byłby znacznie bardziej ograniczony w ramach stałego limitu stawek. Błędy tego rodzaju są twoimi odpowiedzialnościami. Zdecydowanie zalecamy przeprowadzenie testów programistycznych i aktualizacji klienta względem zasobu z ustalonym limitem szybkości przed użyciem funkcji autoskalowania.

Czy mogę wyłączyć tę funkcję, jeśli wolabym ograniczyć stawkę niż nieprzewidywalne wydatki?

Tak, możesz wyłączyć funkcję automatycznego skalowania za pośrednictwem witryny Azure Portal lub interfejsu wiersza polecenia i wrócić do domyślnego ustawienia limitu liczby wywołań. Jeśli zasób został wcześniej zatwierdzony dla wyższego domyślnego modułu TPS, wraca do tej stawki. Wprowadzenie zmian może potrwać do pięciu minut.

Które usługi obsługują funkcję automatycznego skalowania?

Funkcja automatycznego skalowania jest dostępna dla następujących usług:

Czy mogę przetestować tę funkcję przy użyciu bezpłatnej subskrypcji?

Nie, funkcja autoskalowania nie jest dostępna dla subskrypcji w warstwie Bezpłatna.

Następne kroki