Zarządzane zasoby obliczeniowe w usłudze Microsoft Foundry (wersja zapoznawcza)

Note

Zarządzane zasoby obliczeniowe w rozwiązaniu Foundry są obecnie dostępne w publicznej wersji zapoznawczej i do jej używania jest wymagana rejestracja . Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

Zarządzane obliczenia (wersja zapoznawcza) to typ wdrożenia w usłudze Microsoft Foundry, który hostuje modele open source na dedykowanej pojemności procesora GPU bez konieczności aprowizowania maszyn wirtualnych, obsługi klastra Kubernetes, tworzenia obrazów kontenerów lub posiadania środowiska uruchomieniowego obsługującego model. Microsoft jest właścicielem topologii procesora GPU, środowiska uruchomieniowego, obrazu kontenera i poprawek zabezpieczeń. Wybierasz model, szablon wdrożenia, rodzinę akceleratorów i zachowanie skalowania, które pasuje do obciążenia.

Zarządzane zasoby obliczeniowe korzystają z tego samego zasobu Foundry, projektu, punktu końcowego, uwierzytelniania, konfiguracji sieciowej, zestawów SDK, mechanizmów obserwowalności i interfejsu rozliczeniowego jak każdy inny typ wdrożenia w usłudze Foundry. Po wdrożeniu modelu za pomocą zarządzanych obliczeń kod aplikacji jest taki sam jak w przypadku dowolnego innego modelu rozwiązania Foundry; zmienia się tylko nazwa wdrożenia.

W tym artykule wyjaśniono typ wdrożenia zarządzanych zasobów obliczeniowych w usłudze Foundry, pojęcia, z którymi pracujesz (instancje modelu, szablony wdrożenia, rodziny akceleratorów, środowiska uruchomieniowe), katalog, z którego można wdrażać, punkty końcowe inferencji, skalowanie, rozliczenia i limity przydziału, kontrolę dostępu oraz bieżące ograniczenia. Aby uzyskać instrukcje krok po kroku dotyczące wdrażania, zobacz Wdrażanie modeli typu open source za pomocą zarządzanych zasobów obliczeniowych.

Miejsce, w którym zarządzane zasoby obliczeniowe pasują do rozwiązania Foundry

Usługa Foundry oferuje trzy typy wdrożeń. Zarządzane zasoby obliczeniowe to typ wdrożenia używany dla modeli typu open source w dedykowanej pojemności procesora GPU.

Typ wdrożenia Co służy Fakturowanie Najlepsze dla
Standardowa płatność za token Modele Foundry sprzedawane przez platformę Azure Na token wejściowy i wyjściowy Najniższa ścieżka tarć, aby rozpocząć pracę; ruch w modelach hostowanych bez planowania pojemności.
Aprowizowana przepływność Modele Foundry oferowane przez platformę Azure Jednostki zarezerwowanej przepływności Przewidywalne, stałe obciążenie wybranych modeli Foundry oferowanych przez Azure przy stałym opóźnieniu.
Zarządzane obliczenia Modele otwartoźródłowe i modele społeczności z katalogu Foundry Za godzinę na rodzinę akceleratorów Hostowanie modeli typu open source na dedykowanych procesorach GPU za pomocą środowisk uruchomieniowych zarządzanych przez platformę Foundry, sieci prywatnych i tych samych zestawów SDK co inne typy wdrożeń.

Wszystkie trzy typy wdrożeń współdzielą pojedynczy punkt końcowy rozwiązania Foundry, te same wzorce uwierzytelniania (Microsoft Entra ID i klucz), te same zestawy SDK, tę samą powierzchnię obserwacji i jeden rachunek. Wszystkie trzy typy wdrożeń można mieszać w jednym projekcie Foundry i wywoływać je z tego samego kodu klienta.

Kluczowe pojęcia

W tej sekcji opisano kluczowe pojęcia, które należy zrozumieć przed użyciem zarządzanego wdrożenia obliczeniowego w narzędziu Foundry.

Instancja modelu

Instancja modelu jest jednostką wdrożenia w środowisku obliczeniowym zarządzanym. Nie wybierasz wariantu SKU maszyny wirtualnej ani rozmiaru węzła; zamiast tego opisujesz obciążenie za pomocą parametrów modelu, a platforma Foundry dobiera bazową topologię GPU. Wystąpienie może używać jednego akceleratora lub kilku, w zależności od modelu i wybranego szablonu wdrożenia. Wdrożenie można skalować, zmieniając liczbę wystąpień modelu ( capacity wartość jednostki SKU wdrożenia).

Szablon wdrożenia

Szablon wdrożenia to nazwany, wersjonowany zasób, który koduje sposób uruchamiania określonego modelu. Przypinanie szablonu:

  • Środowisko uruchomieniowe do serwowania (na przykład vLLM lub SGLang).
  • Rodzina akceleratorów i liczba na instancję (na przykład jeden H100 80 GB, lub dwa A100 80 GB).
  • Obsługiwana długość kontekstu i wszystkie opcje kwantyzacji.
  • Dostrajanie specyficzne dla środowiska wykonawczego, takie jak parsery wywołań narzędzi i rozumowania, ścieżka punktacji, sondy kondycji, współbieżność żądań oraz wszelkie ustawienia rozszerzania kontekstu specyficzne dla modelu.

Podczas tworzenia skryptu wdrożenia odwołujesz się do identyfikatora szablonu, a narzędzie Foundry obsługuje resztę. Każdy model w katalogu zwykle oferuje kilka szablonów, które różnią się pod względem kompromisu między rodziną akceleratorów, długością kontekstu oraz opóźnieniem a przepustowością. Na przykład qwen3-32b model uwidacznia cztery szablony obok siebie:

Template Runtime Akcelerator Context
qwen--qwen3-32b--40k-nvidia-a100 vLLM 1 × A100 80 GB 40 K
qwen--qwen3-32b--40k-nvidia-h100 vLLM 1 × H100 80 GB 40 K
qwen--qwen3-32b--128k-nvidia-2xa100 vLLM 2 × A100 80 GB 128 K
qwen--qwen3-32b--128k-nvidia-2xh100 vLLM 2 × H100 80 GB 128 K

Wybór szablonu to jedyne ustawienie, które określa, jak działa model.

Rodziny akceleratorów

Wdrożenia zarządzanego środowiska obliczeniowego są przeznaczone dla rodziny akceleratorów, a nie konkretnej jednostki SKU maszyny wirtualnej. Obsługiwane rodziny to:

  • NVIDIA A100 80 GB (A100_80GB)
  • NVIDIA H100 80 GB (H100_80GB)
  • AMD MI300X 192 GB (MI_300_192GB)

Limit jest przyznawany oddzielnie dla każdej rodziny akceleratorów w każdym regionie.

Środowiska uruchomieniowe modelu

Zarządzane zasoby obliczeniowe uruchamiają każdy model w środowisku uruchomieniowym do obsługi modeli, które firma Microsoft tworzy, skanuje, podpisuje i aktualizuje poprawkami. Nie uruchamiasz ani nie przebudowujesz kontenerów. Portfel środowisk uruchomieniowych jest wybierany w zależności od architektury modelu:

Runtime Użyj dla Notes
vLLM Obsługa usługi LLM o wysokiej przepływności Ciągłe przetwarzanie wsadowe, PagedAttention, równoległość tensorów, dynamiczna podmiana LoRA. Ustawienie domyślne dla większości dużych modeli językowych.
SGLang Obsługa strukturalnych danych wyjściowych LLM JSON, wyrażenia regularne i generowanie ograniczone gramatyką dla obciążeń związanych z agentami i korzystaniem z narzędzi.
TensorRT-LLM Obsługa funkcji LLM zoptymalizowana pod kątem firmy NVIDIA Wnioskowanie NVIDIA o niskich opóźnieniach dla rodzin modeli, w których TRT-LLM zapewnia lepsze opóźnienia lub przepustowość.
NVIDIA NIM Mikrousługi inferencyjne NVIDIA backend TensorRT-LLM zgodny z interfejsem API NIM dla modeli udostępnionych przez NVIDIA.
Inferencja wektorowych reprezentacji tekstu (TEI) Osadzenia, modele przeszeregowujące, klasyfikatory Jądra specyficzne dla akceleratora do osadzania i pobierania ścieżek gorących.
llama.cpp Serwowanie na procesorze CPU i małych układach GPU Kwantyzowane modele GGUF udostępniane przez ten sam interfejs API zgodny z OpenAI.
hf-serve Wizja komputerowa, audio, segmentacja i inne pipeline’y natywne dla Transformers Wielomodelowy serwer Hugging Face dla modalności spoza szybkich ścieżek LLM i embeddingów.

Uaktualnienia środowiska uruchomieniowego i poprawki CVE są stosowane automatycznie do wdrożeń klientów na żywo. Nie wdrażasz ponownie modelu, aby pobrać aktualizację środowiska uruchomieniowego.

Obsługiwane modele

Możesz używać zarządzanych zasobów obliczeniowych w Foundry do wdrażania modeli z Hugging Face Collection w katalogu modeli Foundry, udostępnianych z rejestru azure-huggingface. Te modele mają następujące atrybuty:

  • Wyselekcjonowane i odświeżone co tydzień. Popularne modele z ekosystemu Hugging Face są stale dodawane, gdy społeczność je publikuje. Katalog obejmuje modele tekstowe, wizyjne, audio i multimodalne (LLM oraz modele łączące język i obraz do czatów i agentów), automatyczne rozpoznawanie mowy (ASR), tłumaczenie mowy, wektory osadzeń, segmentację i generowanie obrazów.
  • Tylko SafeTensors, bez niezweryfikowanego kodu. Każdy model w Kolekcji jest sprawdzany. Repozytoria, które wymagałyby uruchamiania kodu Python od stron trzecich podczas ładowania (wzorce trust_remote_code), są naprawiane lub wykluczane.
  • Wstępnie przygotowane wagi. Wagi modelu są jednorazowo pobierane z Hugging Face, weryfikowane i przechowywane w usłudze Azure Storage zarządzanej przez firmę Microsoft w regionach, w których model jest udostępniany. Obrazy kontenerów są przechowywane w rejestrze zarządzanym przez firmę Microsoft. W związku z tym zarządzane wdrożenia obliczeniowe nie wymagają wychodzącego dostępu sieciowego do usługi Hugging Face Hub — można je wdrożyć w pełnej sieci prywatnej bez ruchu wychodzącego.
  • Zachowane metadane licencji. Każda karta modelu w katalogu zawiera i wyświetla licencję źródłową. Przegląd licencji pod kątem zgodności z polityką dystrybucji dla klientów korporacyjnych firmy Microsoft odbywa się podczas procesu selekcji.

Potok opracowywania modelu

Każdy model z kolekcji Hugging Face przechodzi przez pięcioetapowy proces selekcji, zanim pojawi się w katalogu:

  1. Identyfikuj modele trendów: Microsoft identyfikuje popularne modele na podstawie sygnałów społeczności, żądań partnerów i zapotrzebowania klientów.
  2. Sprawdzanie zgodności i bezpieczeństwa: każdy model przechodzi przegląd licencji oraz inspekcję pod kątem wzorców trust_remote_code i niestandardowego kodu wykonywalnego.
  3. Kompilowanie, skanowanie i publikowanie obrazów kontenerów środowiska uruchomieniowego: Kompilowane przez Microsoft, skanowane pod kątem luk CVE, podpisywane i publikowane w rejestrze zarządzanym przez Microsoft.
  4. Prześlij wagi modelu do bezpiecznego magazynu Azure: Zweryfikowane względem karty modelu i przechowywane w regionach, w których model jest udostępniany.
  5. Weryfikowanie i publikowanie: każda kombinacja modelu, środowiska uruchomieniowego i akceleratora jest testowana pod kątem zgodności i wydajności interfejsu API, a następnie opublikowana w katalogu za pomocą ścieżki wdrażania jednym kliknięciem.

Punkty końcowe inferencji

Wdrożenie modelu na zarządzanych zasobach obliczeniowych udostępnia model na potrzeby inferencji w tym samym ujednoliconym punkcie końcowym projektu Foundry, który jest używany przez wdrożenia rozliczane za token i wdrożenia z aprowizowaną przepustowością. Podstawowy punkt końcowy ma wzorzec https://<account>.services.ai.azure.com.

Trasy punktu końcowego

Wdrożenie zarządzanych zasobów obliczeniowych można wywołać za pośrednictwem dwóch rodzin tras w ujednoliconym punkcie końcowym. Wybrana trasa zależy od tego, czy bazowy model i środowisko uruchomieniowe uwidacznia interfejs API zgodny z interfejsem OpenAI.

Marszruta Path Odnosi się do Behavior
Zarządzana ścieżka wdrożeń (OSS) <endpoint>/managed-deployments/<deployment-name>/ Wszystkie zarządzane wdrożenia obliczeniowe Działa dla każdego modelu wdrożonego w zarządzanych obliczeniach, w tym modeli na zamówienie, które są dostarczane z własnym zestawem SDK. Modele udostępniające /chat/completions można również wywoływać za pośrednictwem tej ścieżki przy użyciu pakietu OpenAI SDK, ustawiając klient base_url tak, aby wskazywał tę ścieżkę.
Trasa zgodna z protokołem OpenAI <endpoint>/openai/v1/ Zarządzane wdrożenia obliczeniowe, których środowisko uruchomieniowe udostępnia interfejs API zgodny z OpenAI (na przykład vLLM, SGLang, TensorRT-LLM, llama.cpp do obsługi czatu lub osadzeń) Biblioteka OpenAI SDK może wywoływać wdrożenie, ustawiając base_url na tę ścieżkę i przekazując nazwę wdrożenia w polu model ładunku żądania. Jeśli żądanie dotyczy tej trasy z nazwą wdrożenia, której bazowy model lub środowisko uruchomieniowe nie obsługuje powierzchni zgodnej z interfejsem OpenAI, środowisko uruchomieniowe zwraca protokół HTTP 404.

Najważniejsze wnioski:

  • Każde zarządzane wdrożenie obliczeniowe jest osiągalne na https://<account>.services.ai.azure.com/managed-deployments/<deployment-name>/ trasie
  • Każde wdrożenie, którego środowisko uruchomieniowe jest zgodne z protokołem OpenAI, jest również dostępne na https://<account>.services.ai.azure.com/openai/v1/ trasie.
  • Użyj trasy OpenAI, jeśli chcesz udostępnić kod klienta innym wdrożeniom rozwiązania Foundry.
  • Użyj trasy wdrożeń zarządzanych dla modeli, które dostarczają niestandardowy zestaw SDK lub interfejs API innego niż OpenAI.

Tip

Wdrożenie zasobu obliczeniowego zarządzanego dla chat completions można również dodać do agenta Foundry jako model połączony przez administratora i wywoływać za pośrednictwem interfejsu API Foundry Responses przy użyciu tego samego zestawu OpenAI SDK, z wykorzystaniem tego samego uwierzytelniania, punktu końcowego i mechanizmów obserwowalności co w przypadku każdego innego modelu Foundry.

Uwierzytelnianie punktu końcowego

Wdrożenia zarządzanego środowiska obliczeniowego używają tych samych wzorców uwierzytelniania co pozostałe punkty końcowe rozwiązania Foundry:

  • Microsoft Entra ID (zalecane). Uzyskaj token dla zakresu https://ai.azure.com/.default i przekaż go jako token Bearer w nagłówku Authorization. Aby wywołać wdrożenie zarządzanych zasobów obliczeniowych za pomocą Entra ID, tożsamość wywołująca wymaga roli Foundry User w zakresie konta Foundry. OpenAI SDK w trybie tokenowym i DefaultAzureCredential działają bez żadnej konfiguracji specyficznej dla zarządzanych zasobów obliczeniowych.
  • Klucz API konta. Przekaż klucz konta usługi Foundry jako Authorization: Bearer <key>. Zestaw OpenAI SDK automatycznie wysyła klucz w tym formularzu po ustawieniu argumentu api_key . Klucze zapewniają taki sam dostęp do zarządzanych wdrożeń obliczeniowych, jak do wdrożeń w modelu płatności za token i wdrożeń PTU na tym samym koncie.

Obie opcje uwierzytelniania działają dla obu ścieżek endpointów. Aby zobaczyć przykłady kompletnego kodu klienckiego (OpenAI SDK z uwierzytelnianiem Entra ID lub kluczem API), zobacz Wyślij żądanie testowe.

Scaling

Wdrożenie zarządzanego środowiska obliczeniowego można skalować, zmieniając liczbę wystąpień modelu. Po ustawieniu wartości capacity dla jednostki SKU wdrożenia Foundry odpowiednio dostosowuje liczbę układów GPU. Łączna liczba procesorów GPU jest równa liczbie instancji modelu pomnożonej przez liczbę GPU na instancję określoną w wybranym szablonie wdrożenia. Foundry nie wymaga określenia rozmiaru węzła ani wyboru rodziny maszyn wirtualnych.

Zakresy rozliczeń, limitów i wdrożeń

Zarządzane zasoby obliczeniowe są rozliczane co godzinę na akcelerator. W przeciwieństwie do infrastruktury opartej na maszynach wirtualnych, w której wynajmujesz całe serwery GPU i płacisz za każdy układ GPU w serwerze, niezależnie od tego, czy model z niego korzysta, czy nie, opłaty za zarządzane zasoby obliczeniowe są naliczane za instancje modelu. Foundry dopasowuje zasoby każdego modelu do liczby GPU, których faktycznie potrzebuje (jednego, dwóch, czterech lub ośmiu), dzięki czemu nie płacisz za bezczynne akceleratory przypisane do Twojego obciążenia. Koszt wdrożenia to:

Akceleratory na instancję modelu × instancje modelu × godziny działania × stawka godzinowa

Stawki godzinowe różnią się w zależności od rodziny akceleratorów (A100, H100, MI300X) i według zakresu wdrożenia. Aby uzyskać bieżące ceny, zobacz kalkulator cen Azure.

Zakres wdrożenia

Obliczenia zarządzane (wersja zapoznawcza) obecnie obsługują wdrożenie Global, ustawiane za pomocą nazwy SKU wdrożenia GlobalManagedCompute. Globalne wdrożenie zapewnia największą dostępną pulę akceleratorów przy najniższej stawce.

Quota

Limit przydziału zarządzanych zasobów obliczeniowych jest przyznawany dla każdej rodziny akceleratorów w każdym regionie w ramach procesu przydziału limitów Foundry. Limit przydziału zasobów obliczeniowych zarządzanych jest oddzielny od limitu przydziału maszyn wirtualnych platformy Azure. Chociaż limit przydziału maszyn wirtualnych platformy Azure jest przydziałem w modelu infrastruktury jako usługi (IaaS), powiązanym z określonymi regionalnymi jednostkami SKU maszyn wirtualnych, zarządzane zasoby obliczeniowe są zarządzaną usługą PaaS. Nie można zastosować istniejącego limitu przydziału maszyn wirtualnych Azure do zarządzanego wdrożenia obliczeniowego.

Aby uzyskać szczegółowe informacje na temat wyświetlania użycia, przypisywania kosztów do projektu i żądania przydziału, zobacz Planowanie kosztów rozwiązania Microsoft Foundry i zarządzanie nimi oraz Zarządzanie przydziałami i ich zwiększanie.

Kontrola dostępu

Zarządzane zasoby obliczeniowe korzystają z modelu kontroli dostępu opartej na rolach (RBAC) firmy Foundry. Zestaw operacji dostawcy zasobów platformy Azure wymaganych do tworzenia, odczytywania, aktualizowania i usuwania wdrożenia zarządzanych zasobów obliczeniowych jest udokumentowany w dokumencie Kontrola dostępu oparta na rolach dla usługi Microsoft Foundry — operacje płaszczyzny sterowania dla zarządzanych zasobów obliczeniowych wraz z wbudowanymi rolami, które przyznają uprawnienia do wykonywania każdej z tych operacji.

Na pierwszy rzut oka:

  • Cognitive Services Contributor (lub Foundry Owner / Foundry Account Owner) przyznaje pełne uprawnienia do tworzenia / odczytu / aktualizowania / usuwania w przypadku wdrożeń zarządzanych zasobów obliczeniowych.
  • Użytkownik usług Cognitive Services i użytkownik usługi Foundry przyznają dostęp tylko do odczytu do wdrożeń.
  • Foundry Project Manager przyznaje dostęp tylko do odczytu do wdrożeń oraz danych dotyczących użycia akceleratorów, ale nie uprawnia do ich tworzenia ani usuwania.

Wnioskowanie (płaszczyzna danych) w ujednoliconym punkcie końcowym Foundry jest zgodne ze standardowym wzorcem Foundry dzięki przypisaniu roli Foundry User w zakresie konta Foundry, aby wywoływać wdrożenia za pomocą identyfikatora Microsoft Entra ID.

Ograniczenia

Zarządzane zasoby obliczeniowe są w publicznej wersji zapoznawczej. Przed wdrożeniem obciążeń produkcyjnych należy pamiętać o następujących kwestiach:

  • Filtrowanie treści: Wbudowane filtry usługi Bezpieczeństwo zawartości platformy Azure AI nie są częścią ścieżki danych zarządzanych zasobów obliczeniowych w publicznej wersji zapoznawczej. Jeśli potrzebujesz filtrowania na poziomie żądania lub na poziomie odpowiedzi, wywołaj interfejsy API Bezpieczeństwo zawartości platformy Azure AI bezpośrednio z aplikacji.
  • Dostępność regionalna: usługa Managed Compute jest dostępna globalnie. Wdrożenia usługi Data Zone i dodatkowe regiony są stopniowo udostępniane — zobacz macierz ogólnej dostępności, aby sprawdzić bieżący zasięg.
  • Ceny: Stawki godzinowe według rodziny akceleratorów i regionu, zarezerwowana przepustowość oraz rabaty za zobowiązanie ulegają zmianom w ramach wdrożenia zarządzanych zasobów obliczeniowych w wersji zapoznawczej. Aby uzyskać bieżące stawki, zobacz kalkulator cen platformy Azure.