Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Microsoft Foundry Models is de hub voor het detecteren en implementeren van een breed scala aan AI-modellen voor generatieve AI-toepassingen. Als u een model beschikbaar wilt maken voor deductieaanvragen, implementeert u het. Foundry biedt twee implementatieopties, afhankelijk van het modeltype en uw infrastructuurbehoeften.
Tip
U hoeft niet altijd een implementatie te maken. Met directe toegang (preview) roept u ondersteunde modellen aan op naam en start u onmiddellijk deductie uit te voeren, zonder dat er implementatie is vereist.
Implementatieopties
Foundry biedt twee implementatieopties:
- Standaardimplementatie in Foundry-resources — Voor Foundry-modellen, waaronder Foundry-modellen die door Azure worden verkocht (ook wel Azure Direct Models of ADM genoemd) en geselecteerde modellen van partners en de community. Deze optie is het voorkeurs- en meest geschikte implementatiepad.
- Beheerde rekenkrachtimplementatie (preview) - Beschikbaar voor alle OSS-modellen (Open Source Software), inclusief modellen van partners en community's en aangepaste modellen.
De Foundry-portal selecteert automatisch de juiste implementatieoptie op basis van het model dat u kiest.
| Standaardimplementatie in Foundry-resources | Beheerde rekenkracht | |
|---|---|---|
| Modellen | ADM-modellen (Azure OpenAI + partnermodellen gefactureerd via Azure) en selecteer Models van partners en community | Andere modellen in de modelcatalogus van partners en aangepaste modellen. Bijvoorbeeld modellen van Hugging Face, NVIDIA NIC's, branchemodellen en Databricks. |
| Facturering | Tokenverbruik of geconfigureerde doorvoereenheden (PTU) | Per uur per SKU van de accelerator |
| Gegevensverwerking | Regionale, gegevenszone of globaal | Alleen regionaal |
| Inhoudsfiltering | Ingebouwd en aanpasbaar | Via Azure AI Content Veiligheid API's |
Standaardimplementatie in Foundry-resources
De standaardimplementatie in Foundry-resources is de voorkeursimplementatieoptie in Foundry. Het biedt ondersteuning voor het breedste scala aan mogelijkheden en implementatietypen.
Welke modellen gebruiken standaardimplementatie?
Alle Foundry-modellen, waaronder Foundry Models die door Azure worden verkocht en geselecteerde modellen van partners en de community, maken gebruik van standaardimplementatie. Foundry-modellen die door Azure worden verkocht, omvatten alle Azure OpenAI-modellen en geselecteerde modellen van topproviders die worden gefactureerd via uw Azure-abonnement, gedekt door Azure serviceovereenkomsten en ondersteund door Microsoft. Selecteer modellen van partners en de gemeenschap die gebruikmaken van standaardimplementatie, inclusief Anthropic-modellen en specifieke modellen van partners zoals Mistral, Cohere en Meta.
Mogelijkheden
Standaardimplementatie ondersteunt:
- Meerdere implementatietypen : Global Standard, Data Zone Standard, Regional Standard, Provisioned, Batch en meer. Elk type bepaalt waar gegevens worden verwerkt en hoe u betaalt. Zie Deployment-typen voor Microsoft Foundry Models voor meer informatie.
- Flexibiliteit voor gegevensverwerking : kies regionale, gegevenszone (VS of EU) of wereldwijde verwerking op basis van uw nalevingsvereisten.
- Content filtering : ingebouwde Azure AI Content Veiligheid filters met aanpasbare configuraties.
- Sleutelloze verificatie — Microsoft Entra ID (aanbevolen) en verificatie op basis van sleutels.
- Privénetwerken : integratie van virtuele netwerken voor beveiligde toegang.
- Ingerichte doorvoer: gereserveerde capaciteit met PTU's voor voorspelbare prestaties met lage latentie. Zie Ingerichte doorvoer voor meer informatie.
Resourcevereisten
Standaardimplementatie is beschikbaar in:
- Foundry-resources : het primaire resourcetype voor nieuwe Foundry-projecten. Er is geen AI Hub vereist.
- Azure OpenAI-resources— Als u Azure OpenAI-resources gebruikt, worden in de modelcatalogus alleen Azure OpenAI-modellen weergegeven voor implementatie. Voer een upgrade uit naar een Foundry-resource voor toegang tot de volledige set Foundry-modellen.
Zie Deploy Microsoft Foundry Models in the Foundry Portal of Deploy models using Azure CLI and Bicep om aan de slag te gaan met de implementatie.
Implementatie van beheerde rekenkracht (preview)
Note
Beheerde rekenkracht in Foundry is momenteel beschikbaar als openbare preview en registratie is vereist om deze te gebruiken. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews voor meer informatie.
Beheerde rekenkracht in Foundry (preview) is een beheerde GPU-platform-as-a-service (PaaS) die opensource- en aangepaste modellen host op toegewezen GPU-capaciteit. U krijgt toegang tot beheerde rekendeployments via hetzelfde Foundry-projecteindpunt als andere deploymenttypen, zonder dat u zelf virtuele machines, clusters of serving-runtimes hoeft te beheren. Foundry maakt de implementatie groot, richt de accelerators in en houdt de runtime gepatcht.
Belangrijk
Beheerde rekenkracht ondersteunt opensource-, partner-, branche- en aangepaste modellen. Beheerde rekenimplementaties worden geleverd op het eindpunt van het unified Foundry-project, met behulp van dezelfde verificatie, netwerken en SDK-oppervlak.
Welke modellen maken gebruik van beheerde berekeningen?
Voorbeelden van modelverzamelingen waarvoor beheerde rekenkracht is vereist, zijn:
- Knuffelend gezicht
- Sommige metamodellen
- Sommige Mistral-modellen
- NVIDIA-inferentiemicroservices (NIM's)
- Industriemodellen (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
- Databricks
- Aangepaste modellen
Microsoft De catalogus van Foundry bevat meer dan 10.000 opensource- en partnermodellen, met ongeveer 50 nieuwe modellen die elke maand worden gepubliceerd.
Mogelijkheden
Beheerde rekenresources (Preview) ondersteunt:
-
Unified Foundry-eindpunt en -verificatie: gebruik hetzelfde projecteindpunt, API-sleutels, Microsoft Entra ID en privénetwerken als betalen per token en ingerichte doorvoerimplementaties. Inferentieroutes gebruiken
<endpoint>/managed-deployments/<deployment-name>/. Runtimes die compatibel zijn met chatcompletions werken ook via de standaardroute/openai/v1/met de OpenAI SDK. - Dimensionering van modelinstanties — Implementaties worden gedimensioneerd in modelgerichte termen. U hoeft geen SKU's voor virtuele machines te kiezen, omdat Foundry GPU's per exemplaar kiest op basis van modelgrootte, architectuur, contextlengte en of de workload is geoptimaliseerd voor latentie of doorvoer.
- Geoptimaliseerde inferentieruntimes — door Microsoft samengestelde vLLM-, SGLang- en NVIDIA NIM-containers met continue batchverwerking, speculatieve decodering, tensorparallelisme en LoRA hot-swap.
- Acceleratorfamilies : A100 (80 GB), H100 (80 GB), H200 (141 GB) en MI300X.
- Automatisch schalen en schalen naar nul : automatisch schalen vanuit live verkeer of handmatig schalen. Configureer een time-out voor inactiviteit, zodat de implementatie naar nul wordt geschaald wanneer er geen verkeer binnenkomt, waardoor de facturering onmiddellijk stopt.
- Door Microsoft beheerde runtimeomgevingen — Microsoft is eigenaar van runtimeomgevingen voor uitvoering, basiscontainerimages en beveiligingspatches. Updates worden automatisch toegepast op live-implementaties.
- Metrische gegevens over waarneembaarheid : elke implementatie verzendt het aantal API-aanroepen op statuscode en percentielen voor reactietijd. Modellen voor chatvoltooiing verzenden ook het aantal invoer- en uitvoertoken, TTFT-percentielen (time-to-first-token) en het totale aantal percentielen voor reactietijd, gegroepeerd op tijd.
Facturering en quotum
Facturering voor beheerde compute gebeurt per uur per accelerator-SKU, waarbij de doorvoer per GPU de onderliggende factureringseenheid is. Automatisch schalen en schalen naar nul stemmen de kosten af op het daadwerkelijke verkeer, zodat de facturering onmiddellijk stopt wanneer instanties afschalen.
Quotum wordt per SKU van de accelerator per regio toegekend via het Foundry-quotumproces en staat los van het Azure VM-quotum. Azure Virtual Machines is een infrastructuur-als-een-serviceaanbod (IaaS) met regionale SKU's; beheerde rekenkracht is een PaaS-aanbod waarbij Global- en Data Zone-verwerking vooropstaan. Bestaande Azure VM-quotum kan niet worden toegepast op een beheerde rekenprocesimplementatie.
Beheerde berekening is momenteel beschikbaar voor wereldwijde implementatie. Zie de Azure prijscalculator voor prijsramingen.
Aan de slag gaan
Vergelijking van implementatieopties
Gebruik waar mogelijk standaardimplementatie in Foundry-resources . In de volgende tabel worden de mogelijkheden voor de twee implementatieopties vergeleken:
| Vermogen | Standaardimplementatie in Foundry-resources | Beheerde rekenkracht |
|---|---|---|
| Welke modellen kunnen worden geïmplementeerd? | Alle Foundry Models, waaronder Foundry Models verkocht door Azure en geselecteerde modellen van partners en de community | Opensource- en partnermodellen uit de modelcatalogus, NVIDIA NIM en branchemodellen |
| Inzetresource | Gieterijhulpbron | Gieterijproject |
| Vereist AI Hub | Nee | Nee |
| Opties voor gegevensverwerking | Regionaal, gegevenszone, globaal | Wereldwijd |
| Privénetwerken | Ja | Ja |
| Inhoudsfiltering | Ingebouwd en aanpasbaar | Niet beschikbaar in openbare preview |
| Sleutelloze verificatie | Ja (Microsoft Entra ID en op basis van sleutels) | Ja (Microsoft Entra ID en op basis van sleutels) |
| Facturering | Tokengebruik of geconfigureerde doorvoereenheden | Per uur per SKU van de accelerator |
Tip
Zie Plan en beheer de kosten voor Microsoft Foundry voor gedetailleerde prijsinformatie.
Verwante inhoud
- Deploymenttypen voor Microsoft Foundry Models
- Implementeer Microsoft Foundry-modellen in de Foundry-portal
- Implementeer modellen met behulp van de Azure CLI en Bicep
- Foundry-modellen verkocht door Azure
- Foundry Models van partners en de gemeenschap
- overzicht van Microsoft Foundry Models
- Beheerde rekenkracht in Microsoft Foundry