Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Note
Zarządzane zasoby obliczeniowe w rozwiązaniu Foundry są obecnie dostępne w publicznej wersji zapoznawczej i do jej używania jest wymagana rejestracja . Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.
Zarządzane obliczenia (wersja zapoznawcza) to typ wdrożenia w usłudze Microsoft Foundry, który hostuje modele open source na dedykowanej pojemności procesora GPU bez konieczności aprowizowania maszyn wirtualnych, obsługi klastra Kubernetes, tworzenia obrazów kontenerów lub posiadania środowiska uruchomieniowego obsługującego model. Microsoft jest właścicielem topologii procesora GPU, środowiska uruchomieniowego, obrazu kontenera i poprawek zabezpieczeń. Wybierasz model, szablon wdrożenia, rodzinę akceleratorów i zachowanie skalowania, które pasuje do obciążenia.
Zarządzane zasoby obliczeniowe korzystają z tego samego zasobu Foundry, projektu, punktu końcowego, uwierzytelniania, konfiguracji sieciowej, zestawów SDK, mechanizmów obserwowalności i interfejsu rozliczeniowego jak każdy inny typ wdrożenia w usłudze Foundry. Po wdrożeniu modelu za pomocą zarządzanych obliczeń kod aplikacji jest taki sam jak w przypadku dowolnego innego modelu rozwiązania Foundry; zmienia się tylko nazwa wdrożenia.
W tym artykule wyjaśniono typ wdrożenia zarządzanych zasobów obliczeniowych w usłudze Foundry, pojęcia, z którymi pracujesz (instancje modelu, szablony wdrożenia, rodziny akceleratorów, środowiska uruchomieniowe), katalog, z którego można wdrażać, punkty końcowe inferencji, skalowanie, rozliczenia i limity przydziału, kontrolę dostępu oraz bieżące ograniczenia. Aby uzyskać instrukcje krok po kroku dotyczące wdrażania, zobacz Wdrażanie modeli typu open source za pomocą zarządzanych zasobów obliczeniowych.
Miejsce, w którym zarządzane zasoby obliczeniowe pasują do rozwiązania Foundry
Usługa Foundry oferuje trzy typy wdrożeń. Zarządzane zasoby obliczeniowe to typ wdrożenia używany dla modeli typu open source w dedykowanej pojemności procesora GPU.
| Typ wdrożenia | Co służy | Fakturowanie | Najlepsze dla |
|---|---|---|---|
| Standardowa płatność za token | Modele Foundry sprzedawane przez platformę Azure | Na token wejściowy i wyjściowy | Najniższa ścieżka tarć, aby rozpocząć pracę; ruch w modelach hostowanych bez planowania pojemności. |
| Aprowizowana przepływność | Modele Foundry oferowane przez platformę Azure | Jednostki zarezerwowanej przepływności | Przewidywalne, stałe obciążenie wybranych modeli Foundry oferowanych przez Azure przy stałym opóźnieniu. |
| Zarządzane obliczenia | Modele otwartoźródłowe i modele społeczności z katalogu Foundry | Za godzinę na rodzinę akceleratorów | Hostowanie modeli typu open source na dedykowanych procesorach GPU za pomocą środowisk uruchomieniowych zarządzanych przez platformę Foundry, sieci prywatnych i tych samych zestawów SDK co inne typy wdrożeń. |
Wszystkie trzy typy wdrożeń współdzielą pojedynczy punkt końcowy rozwiązania Foundry, te same wzorce uwierzytelniania (Microsoft Entra ID i klucz), te same zestawy SDK, tę samą powierzchnię obserwacji i jeden rachunek. Wszystkie trzy typy wdrożeń można mieszać w jednym projekcie Foundry i wywoływać je z tego samego kodu klienta.
Kluczowe pojęcia
W tej sekcji opisano kluczowe pojęcia, które należy zrozumieć przed użyciem zarządzanego wdrożenia obliczeniowego w narzędziu Foundry.
Instancja modelu
Instancja modelu jest jednostką wdrożenia w środowisku obliczeniowym zarządzanym. Nie wybierasz wariantu SKU maszyny wirtualnej ani rozmiaru węzła; zamiast tego opisujesz obciążenie za pomocą parametrów modelu, a platforma Foundry dobiera bazową topologię GPU. Wystąpienie może używać jednego akceleratora lub kilku, w zależności od modelu i wybranego szablonu wdrożenia. Wdrożenie można skalować, zmieniając liczbę wystąpień modelu ( capacity wartość jednostki SKU wdrożenia).
Szablon wdrożenia
Szablon wdrożenia to nazwany, wersjonowany zasób, który koduje sposób uruchamiania określonego modelu. Przypinanie szablonu:
- Środowisko uruchomieniowe do serwowania (na przykład vLLM lub SGLang).
- Rodzina akceleratorów i liczba na instancję (na przykład jeden H100 80 GB, lub dwa A100 80 GB).
- Obsługiwana długość kontekstu i wszystkie opcje kwantyzacji.
- Dostrajanie specyficzne dla środowiska wykonawczego, takie jak parsery wywołań narzędzi i rozumowania, ścieżka punktacji, sondy kondycji, współbieżność żądań oraz wszelkie ustawienia rozszerzania kontekstu specyficzne dla modelu.
Podczas tworzenia skryptu wdrożenia odwołujesz się do identyfikatora szablonu, a narzędzie Foundry obsługuje resztę. Każdy model w katalogu zwykle oferuje kilka szablonów, które różnią się pod względem kompromisu między rodziną akceleratorów, długością kontekstu oraz opóźnieniem a przepustowością. Na przykład qwen3-32b model uwidacznia cztery szablony obok siebie:
| Template | Runtime | Akcelerator | Context |
|---|---|---|---|
qwen--qwen3-32b--40k-nvidia-a100 |
vLLM | 1 × A100 80 GB | 40 K |
qwen--qwen3-32b--40k-nvidia-h100 |
vLLM | 1 × H100 80 GB | 40 K |
qwen--qwen3-32b--128k-nvidia-2xa100 |
vLLM | 2 × A100 80 GB | 128 K |
qwen--qwen3-32b--128k-nvidia-2xh100 |
vLLM | 2 × H100 80 GB | 128 K |
Wybór szablonu to jedyne ustawienie, które określa, jak działa model.
Rodziny akceleratorów
Wdrożenia zarządzanego środowiska obliczeniowego są przeznaczone dla rodziny akceleratorów, a nie konkretnej jednostki SKU maszyny wirtualnej. Obsługiwane rodziny to:
- NVIDIA A100 80 GB (
A100_80GB) - NVIDIA H100 80 GB (
H100_80GB) - AMD MI300X 192 GB (
MI_300_192GB)
Limit jest przyznawany oddzielnie dla każdej rodziny akceleratorów w każdym regionie.
Środowiska uruchomieniowe modelu
Zarządzane zasoby obliczeniowe uruchamiają każdy model w środowisku uruchomieniowym do obsługi modeli, które firma Microsoft tworzy, skanuje, podpisuje i aktualizuje poprawkami. Nie uruchamiasz ani nie przebudowujesz kontenerów. Portfel środowisk uruchomieniowych jest wybierany w zależności od architektury modelu:
| Runtime | Użyj dla | Notes |
|---|---|---|
| vLLM | Obsługa usługi LLM o wysokiej przepływności | Ciągłe przetwarzanie wsadowe, PagedAttention, równoległość tensorów, dynamiczna podmiana LoRA. Ustawienie domyślne dla większości dużych modeli językowych. |
| SGLang | Obsługa strukturalnych danych wyjściowych LLM | JSON, wyrażenia regularne i generowanie ograniczone gramatyką dla obciążeń związanych z agentami i korzystaniem z narzędzi. |
| TensorRT-LLM | Obsługa funkcji LLM zoptymalizowana pod kątem firmy NVIDIA | Wnioskowanie NVIDIA o niskich opóźnieniach dla rodzin modeli, w których TRT-LLM zapewnia lepsze opóźnienia lub przepustowość. |
| NVIDIA NIM | Mikrousługi inferencyjne NVIDIA | backend TensorRT-LLM zgodny z interfejsem API NIM dla modeli udostępnionych przez NVIDIA. |
| Inferencja wektorowych reprezentacji tekstu (TEI) | Osadzenia, modele przeszeregowujące, klasyfikatory | Jądra specyficzne dla akceleratora do osadzania i pobierania ścieżek gorących. |
| llama.cpp | Serwowanie na procesorze CPU i małych układach GPU | Kwantyzowane modele GGUF udostępniane przez ten sam interfejs API zgodny z OpenAI. |
| hf-serve | Wizja komputerowa, audio, segmentacja i inne pipeline’y natywne dla Transformers | Wielomodelowy serwer Hugging Face dla modalności spoza szybkich ścieżek LLM i embeddingów. |
Uaktualnienia środowiska uruchomieniowego i poprawki CVE są stosowane automatycznie do wdrożeń klientów na żywo. Nie wdrażasz ponownie modelu, aby pobrać aktualizację środowiska uruchomieniowego.
Obsługiwane modele
Możesz używać zarządzanych zasobów obliczeniowych w Foundry do wdrażania modeli z Hugging Face Collection w katalogu modeli Foundry, udostępnianych z rejestru azure-huggingface. Te modele mają następujące atrybuty:
- Wyselekcjonowane i odświeżone co tydzień. Popularne modele z ekosystemu Hugging Face są stale dodawane, gdy społeczność je publikuje. Katalog obejmuje modele tekstowe, wizyjne, audio i multimodalne (LLM oraz modele łączące język i obraz do czatów i agentów), automatyczne rozpoznawanie mowy (ASR), tłumaczenie mowy, wektory osadzeń, segmentację i generowanie obrazów.
- Tylko SafeTensors, bez niezweryfikowanego kodu. Każdy model w Kolekcji jest sprawdzany. Repozytoria, które wymagałyby uruchamiania kodu Python od stron trzecich podczas ładowania (wzorce
trust_remote_code), są naprawiane lub wykluczane. - Wstępnie przygotowane wagi. Wagi modelu są jednorazowo pobierane z Hugging Face, weryfikowane i przechowywane w usłudze Azure Storage zarządzanej przez firmę Microsoft w regionach, w których model jest udostępniany. Obrazy kontenerów są przechowywane w rejestrze zarządzanym przez firmę Microsoft. W związku z tym zarządzane wdrożenia obliczeniowe nie wymagają wychodzącego dostępu sieciowego do usługi Hugging Face Hub — można je wdrożyć w pełnej sieci prywatnej bez ruchu wychodzącego.
- Zachowane metadane licencji. Każda karta modelu w katalogu zawiera i wyświetla licencję źródłową. Przegląd licencji pod kątem zgodności z polityką dystrybucji dla klientów korporacyjnych firmy Microsoft odbywa się podczas procesu selekcji.
Potok opracowywania modelu
Każdy model z kolekcji Hugging Face przechodzi przez pięcioetapowy proces selekcji, zanim pojawi się w katalogu:
- Identyfikuj modele trendów: Microsoft identyfikuje popularne modele na podstawie sygnałów społeczności, żądań partnerów i zapotrzebowania klientów.
-
Sprawdzanie zgodności i bezpieczeństwa: każdy model przechodzi przegląd licencji oraz inspekcję pod kątem wzorców
trust_remote_codei niestandardowego kodu wykonywalnego. - Kompilowanie, skanowanie i publikowanie obrazów kontenerów środowiska uruchomieniowego: Kompilowane przez Microsoft, skanowane pod kątem luk CVE, podpisywane i publikowane w rejestrze zarządzanym przez Microsoft.
- Prześlij wagi modelu do bezpiecznego magazynu Azure: Zweryfikowane względem karty modelu i przechowywane w regionach, w których model jest udostępniany.
- Weryfikowanie i publikowanie: każda kombinacja modelu, środowiska uruchomieniowego i akceleratora jest testowana pod kątem zgodności i wydajności interfejsu API, a następnie opublikowana w katalogu za pomocą ścieżki wdrażania jednym kliknięciem.
Punkty końcowe inferencji
Wdrożenie modelu na zarządzanych zasobach obliczeniowych udostępnia model na potrzeby inferencji w tym samym ujednoliconym punkcie końcowym projektu Foundry, który jest używany przez wdrożenia rozliczane za token i wdrożenia z aprowizowaną przepustowością.
Podstawowy punkt końcowy ma wzorzec https://<account>.services.ai.azure.com.
Trasy punktu końcowego
Wdrożenie zarządzanych zasobów obliczeniowych można wywołać za pośrednictwem dwóch rodzin tras w ujednoliconym punkcie końcowym. Wybrana trasa zależy od tego, czy bazowy model i środowisko uruchomieniowe uwidacznia interfejs API zgodny z interfejsem OpenAI.
| Marszruta | Path | Odnosi się do | Behavior |
|---|---|---|---|
| Zarządzana ścieżka wdrożeń (OSS) | <endpoint>/managed-deployments/<deployment-name>/ |
Wszystkie zarządzane wdrożenia obliczeniowe | Działa dla każdego modelu wdrożonego w zarządzanych obliczeniach, w tym modeli na zamówienie, które są dostarczane z własnym zestawem SDK. Modele udostępniające /chat/completions można również wywoływać za pośrednictwem tej ścieżki przy użyciu pakietu OpenAI SDK, ustawiając klient base_url tak, aby wskazywał tę ścieżkę. |
| Trasa zgodna z protokołem OpenAI | <endpoint>/openai/v1/ |
Zarządzane wdrożenia obliczeniowe, których środowisko uruchomieniowe udostępnia interfejs API zgodny z OpenAI (na przykład vLLM, SGLang, TensorRT-LLM, llama.cpp do obsługi czatu lub osadzeń) | Biblioteka OpenAI SDK może wywoływać wdrożenie, ustawiając base_url na tę ścieżkę i przekazując nazwę wdrożenia w polu model ładunku żądania. Jeśli żądanie dotyczy tej trasy z nazwą wdrożenia, której bazowy model lub środowisko uruchomieniowe nie obsługuje powierzchni zgodnej z interfejsem OpenAI, środowisko uruchomieniowe zwraca protokół HTTP 404. |
Najważniejsze wnioski:
- Każde zarządzane wdrożenie obliczeniowe jest osiągalne na
https://<account>.services.ai.azure.com/managed-deployments/<deployment-name>/trasie - Każde wdrożenie, którego środowisko uruchomieniowe jest zgodne z protokołem OpenAI, jest również dostępne na
https://<account>.services.ai.azure.com/openai/v1/trasie. - Użyj trasy OpenAI, jeśli chcesz udostępnić kod klienta innym wdrożeniom rozwiązania Foundry.
- Użyj trasy wdrożeń zarządzanych dla modeli, które dostarczają niestandardowy zestaw SDK lub interfejs API innego niż OpenAI.
Tip
Wdrożenie zasobu obliczeniowego zarządzanego dla chat completions można również dodać do agenta Foundry jako model połączony przez administratora i wywoływać za pośrednictwem interfejsu API Foundry Responses przy użyciu tego samego zestawu OpenAI SDK, z wykorzystaniem tego samego uwierzytelniania, punktu końcowego i mechanizmów obserwowalności co w przypadku każdego innego modelu Foundry.
Uwierzytelnianie punktu końcowego
Wdrożenia zarządzanego środowiska obliczeniowego używają tych samych wzorców uwierzytelniania co pozostałe punkty końcowe rozwiązania Foundry:
- Microsoft Entra ID (zalecane). Uzyskaj token dla zakresu
https://ai.azure.com/.defaulti przekaż go jako token Bearer w nagłówkuAuthorization. Aby wywołać wdrożenie zarządzanych zasobów obliczeniowych za pomocą Entra ID, tożsamość wywołująca wymaga roli Foundry User w zakresie konta Foundry. OpenAI SDK w trybie tokenowym iDefaultAzureCredentialdziałają bez żadnej konfiguracji specyficznej dla zarządzanych zasobów obliczeniowych. - Klucz API konta. Przekaż klucz konta usługi Foundry jako
Authorization: Bearer <key>. Zestaw OpenAI SDK automatycznie wysyła klucz w tym formularzu po ustawieniu argumentuapi_key. Klucze zapewniają taki sam dostęp do zarządzanych wdrożeń obliczeniowych, jak do wdrożeń w modelu płatności za token i wdrożeń PTU na tym samym koncie.
Obie opcje uwierzytelniania działają dla obu ścieżek endpointów. Aby zobaczyć przykłady kompletnego kodu klienckiego (OpenAI SDK z uwierzytelnianiem Entra ID lub kluczem API), zobacz Wyślij żądanie testowe.
Scaling
Wdrożenie zarządzanego środowiska obliczeniowego można skalować, zmieniając liczbę wystąpień modelu. Po ustawieniu wartości capacity dla jednostki SKU wdrożenia Foundry odpowiednio dostosowuje liczbę układów GPU. Łączna liczba procesorów GPU jest równa liczbie instancji modelu pomnożonej przez liczbę GPU na instancję określoną w wybranym szablonie wdrożenia. Foundry nie wymaga określenia rozmiaru węzła ani wyboru rodziny maszyn wirtualnych.
Zakresy rozliczeń, limitów i wdrożeń
Zarządzane zasoby obliczeniowe są rozliczane co godzinę na akcelerator. W przeciwieństwie do infrastruktury opartej na maszynach wirtualnych, w której wynajmujesz całe serwery GPU i płacisz za każdy układ GPU w serwerze, niezależnie od tego, czy model z niego korzysta, czy nie, opłaty za zarządzane zasoby obliczeniowe są naliczane za instancje modelu. Foundry dopasowuje zasoby każdego modelu do liczby GPU, których faktycznie potrzebuje (jednego, dwóch, czterech lub ośmiu), dzięki czemu nie płacisz za bezczynne akceleratory przypisane do Twojego obciążenia. Koszt wdrożenia to:
Akceleratory na instancję modelu × instancje modelu × godziny działania × stawka godzinowa
Stawki godzinowe różnią się w zależności od rodziny akceleratorów (A100, H100, MI300X) i według zakresu wdrożenia. Aby uzyskać bieżące ceny, zobacz kalkulator cen Azure.
Zakres wdrożenia
Obliczenia zarządzane (wersja zapoznawcza) obecnie obsługują wdrożenie Global, ustawiane za pomocą nazwy SKU wdrożenia GlobalManagedCompute. Globalne wdrożenie zapewnia największą dostępną pulę akceleratorów przy najniższej stawce.
Quota
Limit przydziału zarządzanych zasobów obliczeniowych jest przyznawany dla każdej rodziny akceleratorów w każdym regionie w ramach procesu przydziału limitów Foundry. Limit przydziału zasobów obliczeniowych zarządzanych jest oddzielny od limitu przydziału maszyn wirtualnych platformy Azure. Chociaż limit przydziału maszyn wirtualnych platformy Azure jest przydziałem w modelu infrastruktury jako usługi (IaaS), powiązanym z określonymi regionalnymi jednostkami SKU maszyn wirtualnych, zarządzane zasoby obliczeniowe są zarządzaną usługą PaaS. Nie można zastosować istniejącego limitu przydziału maszyn wirtualnych Azure do zarządzanego wdrożenia obliczeniowego.
Aby uzyskać szczegółowe informacje na temat wyświetlania użycia, przypisywania kosztów do projektu i żądania przydziału, zobacz Planowanie kosztów rozwiązania Microsoft Foundry i zarządzanie nimi oraz Zarządzanie przydziałami i ich zwiększanie.
Kontrola dostępu
Zarządzane zasoby obliczeniowe korzystają z modelu kontroli dostępu opartej na rolach (RBAC) firmy Foundry. Zestaw operacji dostawcy zasobów platformy Azure wymaganych do tworzenia, odczytywania, aktualizowania i usuwania wdrożenia zarządzanych zasobów obliczeniowych jest udokumentowany w dokumencie Kontrola dostępu oparta na rolach dla usługi Microsoft Foundry — operacje płaszczyzny sterowania dla zarządzanych zasobów obliczeniowych wraz z wbudowanymi rolami, które przyznają uprawnienia do wykonywania każdej z tych operacji.
Na pierwszy rzut oka:
- Cognitive Services Contributor (lub Foundry Owner / Foundry Account Owner) przyznaje pełne uprawnienia do tworzenia / odczytu / aktualizowania / usuwania w przypadku wdrożeń zarządzanych zasobów obliczeniowych.
- Użytkownik usług Cognitive Services i użytkownik usługi Foundry przyznają dostęp tylko do odczytu do wdrożeń.
- Foundry Project Manager przyznaje dostęp tylko do odczytu do wdrożeń oraz danych dotyczących użycia akceleratorów, ale nie uprawnia do ich tworzenia ani usuwania.
Wnioskowanie (płaszczyzna danych) w ujednoliconym punkcie końcowym Foundry jest zgodne ze standardowym wzorcem Foundry dzięki przypisaniu roli Foundry User w zakresie konta Foundry, aby wywoływać wdrożenia za pomocą identyfikatora Microsoft Entra ID.
Ograniczenia
Zarządzane zasoby obliczeniowe są w publicznej wersji zapoznawczej. Przed wdrożeniem obciążeń produkcyjnych należy pamiętać o następujących kwestiach:
- Filtrowanie treści: Wbudowane filtry usługi Bezpieczeństwo zawartości platformy Azure AI nie są częścią ścieżki danych zarządzanych zasobów obliczeniowych w publicznej wersji zapoznawczej. Jeśli potrzebujesz filtrowania na poziomie żądania lub na poziomie odpowiedzi, wywołaj interfejsy API Bezpieczeństwo zawartości platformy Azure AI bezpośrednio z aplikacji.
- Dostępność regionalna: usługa Managed Compute jest dostępna globalnie. Wdrożenia usługi Data Zone i dodatkowe regiony są stopniowo udostępniane — zobacz macierz ogólnej dostępności, aby sprawdzić bieżący zasięg.
- Ceny: Stawki godzinowe według rodziny akceleratorów i regionu, zarezerwowana przepustowość oraz rabaty za zobowiązanie ulegają zmianom w ramach wdrożenia zarządzanych zasobów obliczeniowych w wersji zapoznawczej. Aby uzyskać bieżące stawki, zobacz kalkulator cen platformy Azure.
Treści powiązane
- Wdrażanie modeli typu open source za pomocą zarządzanych zasobów obliczeniowych
- Omówienie wdrażania modeli rozwiązania Microsoft Foundry
- Kontrola dostępu oparta na rolach dla Microsoft Foundry
- Planowanie kosztów usługi Microsoft Foundry i zarządzanie nimi
- Zarządzanie limitami przydziału i zwiększanie ich
- Uwierzytelnianie i autoryzacja w narzędziu Foundry