Udostępnij za pośrednictwem


Typy wdrożeń usługi Azure OpenAI

Usługa Azure OpenAI zapewnia klientom wybór struktury hostingu, która pasuje do wzorców biznesowych i użycia. Usługa oferuje dwa główne typy wdrożenia: standardowy i aprowizowany. Standard jest oferowany z opcją globalnego wdrażania, routing ruchu globalnego w celu zapewnienia wyższej przepływności. Wszystkie wdrożenia mogą wykonywać dokładnie te same operacje wnioskowania, jednak rozliczenia, skala i wydajność są znacznie inne. W ramach projektu rozwiązania należy podjąć dwie kluczowe decyzje:

  • Wymagania dotyczące rezydencji danych: zasoby globalne a regionalne
  • Wolumin wywołań: standardowy a aprowizowany

Typy wdrożeń globalnych i regionalnych

W przypadku wdrożeń standardowych można korzystać z dwóch typów konfiguracji w ramach zasobu — globalnego lub regionalnego. Globalny standard jest zalecanym punktem wyjścia dla programowania i eksperymentowania. Wdrożenia globalne wykorzystują globalną infrastrukturę platformy Azure, dynamicznie kierują ruch klientów do centrum danych z najlepszą dostępnością żądań wnioskowania klienta. W przypadku wdrożeń globalnych istnieją wyższe początkowe limity przepływności, ale opóźnienie może się różnić na wysokim poziomie użycia. W przypadku klientów, którzy wymagają mniejszej wariancji opóźnienia w przypadku dużego użycia obciążeń, zalecamy zakup aprowizowanej przepływności.

Nasze wdrożenia globalne będą pierwszą lokalizacją dla wszystkich nowych modeli i funkcji. Klienci z bardzo dużymi wymaganiami dotyczącymi przepływności powinni rozważyć naszą aprowizowaną ofertę wdrażania.

Typy wdrożeń

Usługa Azure OpenAI oferuje trzy typy wdrożeń. Zapewniają one zróżnicowany poziom możliwości, które zapewniają kompromisy między przepływnością, umowami SLA i ceną. Poniżej znajduje się podsumowanie opcji, po których znajduje się bardziej szczegółowy opis każdego z nich.

Oferuje Standardowa globalna Standardowa Zaaprowizowane
Najlepiej nadaje się do Aplikacje, które nie wymagają rezydencji danych. Zalecane miejsce rozpoczęcia dla klientów. W przypadku klientów z wymaganiami dotyczącymi rezydencji danych. Zoptymalizowane pod kątem małych i średnich woluminów. Ocenianie w czasie rzeczywistym dla dużego woluminu spójnego. Obejmuje najwyższe zobowiązania i limity.
Jak to działa Ruch może być kierowany w dowolnym miejscu na świecie
Rozpoczęcie pracy Wdrażanie modelu Wdrażanie modelu Aprowizowanie dołączania
Koszty Linia bazowa Cennik regionalny Może to spowodować oszczędności kosztów w przypadku spójnego użycia
Co otrzymujesz Łatwy dostęp do wszystkich nowych modeli z najwyższymi domyślnymi limitami płatności za wywołania.

Klienci z wysokim użyciem woluminu mogą zobaczyć większą zmienność opóźnienia
Łatwy dostęp z umową SLA w zakresie dostępności. Zoptymalizowane pod kątem obciążeń o małych i średnich woluminach z dużą wydajnością.

Klienci o dużej spójnego woluminie mogą mieć większe opóźnienie zmienności.
Dostęp regionalny z bardzo wysoką i przewidywalną przepływnością. Określanie przepływności na jednostkę PTU przy użyciu dostarczonego kalkulatora pojemności
Czego nie otrzymujesz ❌Gwarancje dotyczące rezydencji danych ❌Duże opóźnienie w/spójne małe opóźnienie ❌Elastyczność płatności za połączenie
Opóźnienie poszczególnych wywołań Zoptymalizowane pod kątem wywołań w czasie rzeczywistym i małych i średnich użycia woluminów. Klienci z wysokim użyciem woluminu mogą zobaczyć większą zmienność opóźnienia. Zestaw progów dla modelu Zoptymalizowane pod kątem wywołań w czasie rzeczywistym i małych i średnich użycia woluminów. Klienci z wysokim użyciem woluminu mogą zobaczyć większą zmienność opóźnienia. Zestaw progów dla modelu Zoptymalizowane pod kątem czasu rzeczywistego.
Nazwa jednostki SKU w kodzie GlobalStandard Standard ProvisionedManaged
Model rozliczania Płatność za token Płatność za token Zobowiązania miesięczne

Zaaprowizowane

Aprowizowanie wdrożeń umożliwia określenie wymaganej przepływności we wdrożeniu. Następnie usługa przydziela niezbędną pojemność przetwarzania modelu i zapewnia, że jest gotowa. Przepływność jest definiowana pod względem aprowizowanej jednostki przepływności (PTU), która jest znormalizowanym sposobem reprezentowania przepływności dla danego wdrożenia. Każda para wersji modelu wymaga różnych ilości jednostek PTU do wdrożenia i zapewnienia różnych przepływności na jednostkę PTU. Dowiedz się więcej z artykułu Pojęcia dotyczące aprowizowanej przepływności.

Standardowa

Wdrożenia standardowe zapewniają model rozliczeń z płatnością za wywołanie w wybranym modelu. Zapewnia najszybszy sposób rozpoczęcia pracy, ponieważ płacisz tylko za to, co zużywasz. Modele dostępne w każdym regionie, a także przepływność mogą być ograniczone.

Wdrożenia w warstwie Standardowa są zoptymalizowane pod kątem obciążeń o małych i średnich woluminach o wysokiej wydajności. Klienci o dużej spójnego woluminie mogą mieć większe opóźnienie zmienności.

Globalny standard

Wdrożenia globalne są dostępne w tych samych zasobach usługi Azure OpenAI co oferty inne niż globalne, ale umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych z najlepszą dostępnością dla każdego żądania. Globalny standard zapewni najwyższy domyślny limit przydziału dla nowych modeli i eliminuje konieczność równoważenia obciążenia w wielu zasobach.

Typ wdrożenia jest zoptymalizowany pod kątem obciążeń o małych i średnich woluminach o wysokiej wydajności. Klienci o dużej spójnego woluminie mogą mieć większe opóźnienie zmienności. Próg jest ustawiany dla modelu. Aby dowiedzieć się więcej, zobacz stronę przydziałów.

W przypadku klientów, którzy wymagają mniejszej wariancji opóźnienia w przypadku dużego użycia obciążeń, zalecamy zakup aprowizowanej przepływności.

Jak wyłączyć dostęp do wdrożeń globalnych w ramach subskrypcji

Usługa Azure Policy pomaga wymuszać standardy organizacyjne i oceniać zgodność na dużą skalę. Za pośrednictwem pulpitu nawigacyjnego zgodności udostępnia zagregowany widok umożliwiający ocenę ogólnego stanu środowiska, z możliwością przechodzenia do szczegółów poszczególnych zasobów i zasad. Pomaga również zapewnić zgodność zasobów dzięki korygowaniu zbiorczemu istniejących zasobów i automatycznemu korygowaniu nowych zasobów. Dowiedz się więcej o usłudze Azure Policy i określonych wbudowanych kontrolkach dla usług sztucznej inteligencji.

Poniższe zasady umożliwiają wyłączenie dostępu do globalnych wdrożeń usługi Azure OpenAI w warstwie Standardowa.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Wdrażanie modeli

Zrzut ekranu przedstawiający okno dialogowe wdrażania modelu w programie Azure OpenAI Studio z wyróżnionymi trzema typami wdrożenia.

Aby dowiedzieć się więcej o tworzeniu zasobów i wdrażaniu modeli, zapoznaj się z przewodnikiem tworzenia zasobów.

Zobacz też