Implementatieoverzicht voor Microsoft Foundry-modellen

Microsoft Foundry Models is de hub voor het detecteren en implementeren van een breed scala aan AI-modellen voor generatieve AI-toepassingen. Als u een model beschikbaar wilt maken voor deductieaanvragen, implementeert u het. Foundry biedt twee implementatieopties, afhankelijk van het modeltype en uw infrastructuurbehoeften.

Tip

U hoeft niet altijd een implementatie te maken. Met directe toegang (preview) roept u ondersteunde modellen aan op naam en start u onmiddellijk deductie uit te voeren, zonder dat er implementatie is vereist.

Implementatieopties

Foundry biedt twee implementatieopties:

De Foundry-portal selecteert automatisch de juiste implementatieoptie op basis van het model dat u kiest.

Standaardimplementatie in Foundry-resources Beheerde rekenkracht
Modellen ADM-modellen (Azure OpenAI + partnermodellen gefactureerd via Azure) en selecteer Models van partners en community Andere modellen in de modelcatalogus van partners en aangepaste modellen. Bijvoorbeeld modellen van Hugging Face, NVIDIA NIC's, branchemodellen en Databricks.
Facturering Tokenverbruik of geconfigureerde doorvoereenheden (PTU) Per uur per SKU van de accelerator
Gegevensverwerking Regionale, gegevenszone of globaal Alleen regionaal
Inhoudsfiltering Ingebouwd en aanpasbaar Via Azure AI Content Veiligheid API's

Standaardimplementatie in Foundry-resources

De standaardimplementatie in Foundry-resources is de voorkeursimplementatieoptie in Foundry. Het biedt ondersteuning voor het breedste scala aan mogelijkheden en implementatietypen.

Welke modellen gebruiken standaardimplementatie?

Alle Foundry-modellen, waaronder Foundry Models die door Azure worden verkocht en geselecteerde modellen van partners en de community, maken gebruik van standaardimplementatie. Foundry-modellen die door Azure worden verkocht, omvatten alle Azure OpenAI-modellen en geselecteerde modellen van topproviders die worden gefactureerd via uw Azure-abonnement, gedekt door Azure serviceovereenkomsten en ondersteund door Microsoft. Selecteer modellen van partners en de gemeenschap die gebruikmaken van standaardimplementatie, inclusief Anthropic-modellen en specifieke modellen van partners zoals Mistral, Cohere en Meta.

Mogelijkheden

Standaardimplementatie ondersteunt:

  • Meerdere implementatietypen : Global Standard, Data Zone Standard, Regional Standard, Provisioned, Batch en meer. Elk type bepaalt waar gegevens worden verwerkt en hoe u betaalt. Zie Deployment-typen voor Microsoft Foundry Models voor meer informatie.
  • Flexibiliteit voor gegevensverwerking : kies regionale, gegevenszone (VS of EU) of wereldwijde verwerking op basis van uw nalevingsvereisten.
  • Content filtering : ingebouwde Azure AI Content Veiligheid filters met aanpasbare configuraties.
  • Sleutelloze verificatie — Microsoft Entra ID (aanbevolen) en verificatie op basis van sleutels.
  • Privénetwerken : integratie van virtuele netwerken voor beveiligde toegang.
  • Ingerichte doorvoer: gereserveerde capaciteit met PTU's voor voorspelbare prestaties met lage latentie. Zie Ingerichte doorvoer voor meer informatie.

Resourcevereisten

Standaardimplementatie is beschikbaar in:

  • Foundry-resources : het primaire resourcetype voor nieuwe Foundry-projecten. Er is geen AI Hub vereist.
  • Azure OpenAI-resources— Als u Azure OpenAI-resources gebruikt, worden in de modelcatalogus alleen Azure OpenAI-modellen weergegeven voor implementatie. Voer een upgrade uit naar een Foundry-resource voor toegang tot de volledige set Foundry-modellen.

Zie Deploy Microsoft Foundry Models in the Foundry Portal of Deploy models using Azure CLI and Bicep om aan de slag te gaan met de implementatie.

Implementatie van beheerde rekenkracht (preview)

Note

Beheerde rekenkracht in Foundry is momenteel beschikbaar als openbare preview en registratie is vereist om deze te gebruiken. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews voor meer informatie.

Beheerde rekenkracht in Foundry (preview) is een beheerde GPU-platform-as-a-service (PaaS) die opensource- en aangepaste modellen host op toegewezen GPU-capaciteit. U krijgt toegang tot beheerde rekendeployments via hetzelfde Foundry-projecteindpunt als andere deploymenttypen, zonder dat u zelf virtuele machines, clusters of serving-runtimes hoeft te beheren. Foundry maakt de implementatie groot, richt de accelerators in en houdt de runtime gepatcht.

Belangrijk

Beheerde rekenkracht ondersteunt opensource-, partner-, branche- en aangepaste modellen. Beheerde rekenimplementaties worden geleverd op het eindpunt van het unified Foundry-project, met behulp van dezelfde verificatie, netwerken en SDK-oppervlak.

Welke modellen maken gebruik van beheerde berekeningen?

Voorbeelden van modelverzamelingen waarvoor beheerde rekenkracht is vereist, zijn:

  • Knuffelend gezicht
  • Sommige metamodellen
  • Sommige Mistral-modellen
  • NVIDIA-inferentiemicroservices (NIM's)
  • Industriemodellen (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
  • Databricks
  • Aangepaste modellen

Microsoft De catalogus van Foundry bevat meer dan 10.000 opensource- en partnermodellen, met ongeveer 50 nieuwe modellen die elke maand worden gepubliceerd.

Mogelijkheden

Beheerde rekenresources (Preview) ondersteunt:

  • Unified Foundry-eindpunt en -verificatie: gebruik hetzelfde projecteindpunt, API-sleutels, Microsoft Entra ID en privénetwerken als betalen per token en ingerichte doorvoerimplementaties. Inferentieroutes gebruiken <endpoint>/managed-deployments/<deployment-name>/. Runtimes die compatibel zijn met chatcompletions werken ook via de standaardroute /openai/v1/ met de OpenAI SDK.
  • Dimensionering van modelinstanties — Implementaties worden gedimensioneerd in modelgerichte termen. U hoeft geen SKU's voor virtuele machines te kiezen, omdat Foundry GPU's per exemplaar kiest op basis van modelgrootte, architectuur, contextlengte en of de workload is geoptimaliseerd voor latentie of doorvoer.
  • Geoptimaliseerde inferentieruntimes — door Microsoft samengestelde vLLM-, SGLang- en NVIDIA NIM-containers met continue batchverwerking, speculatieve decodering, tensorparallelisme en LoRA hot-swap.
  • Acceleratorfamilies : A100 (80 GB), H100 (80 GB), H200 (141 GB) en MI300X.
  • Automatisch schalen en schalen naar nul : automatisch schalen vanuit live verkeer of handmatig schalen. Configureer een time-out voor inactiviteit, zodat de implementatie naar nul wordt geschaald wanneer er geen verkeer binnenkomt, waardoor de facturering onmiddellijk stopt.
  • Door Microsoft beheerde runtimeomgevingen — Microsoft is eigenaar van runtimeomgevingen voor uitvoering, basiscontainerimages en beveiligingspatches. Updates worden automatisch toegepast op live-implementaties.
  • Metrische gegevens over waarneembaarheid : elke implementatie verzendt het aantal API-aanroepen op statuscode en percentielen voor reactietijd. Modellen voor chatvoltooiing verzenden ook het aantal invoer- en uitvoertoken, TTFT-percentielen (time-to-first-token) en het totale aantal percentielen voor reactietijd, gegroepeerd op tijd.

Facturering en quotum

Facturering voor beheerde compute gebeurt per uur per accelerator-SKU, waarbij de doorvoer per GPU de onderliggende factureringseenheid is. Automatisch schalen en schalen naar nul stemmen de kosten af op het daadwerkelijke verkeer, zodat de facturering onmiddellijk stopt wanneer instanties afschalen.

Quotum wordt per SKU van de accelerator per regio toegekend via het Foundry-quotumproces en staat los van het Azure VM-quotum. Azure Virtual Machines is een infrastructuur-als-een-serviceaanbod (IaaS) met regionale SKU's; beheerde rekenkracht is een PaaS-aanbod waarbij Global- en Data Zone-verwerking vooropstaan. Bestaande Azure VM-quotum kan niet worden toegepast op een beheerde rekenprocesimplementatie.

Beheerde berekening is momenteel beschikbaar voor wereldwijde implementatie. Zie de Azure prijscalculator voor prijsramingen.

Aan de slag gaan

Vergelijking van implementatieopties

Gebruik waar mogelijk standaardimplementatie in Foundry-resources . In de volgende tabel worden de mogelijkheden voor de twee implementatieopties vergeleken:

Vermogen Standaardimplementatie in Foundry-resources Beheerde rekenkracht
Welke modellen kunnen worden geïmplementeerd? Alle Foundry Models, waaronder Foundry Models verkocht door Azure en geselecteerde modellen van partners en de community Opensource- en partnermodellen uit de modelcatalogus, NVIDIA NIM en branchemodellen
Inzetresource Gieterijhulpbron Gieterijproject
Vereist AI Hub Nee Nee
Opties voor gegevensverwerking Regionaal, gegevenszone, globaal Wereldwijd
Privénetwerken Ja Ja
Inhoudsfiltering Ingebouwd en aanpasbaar Niet beschikbaar in openbare preview
Sleutelloze verificatie Ja (Microsoft Entra ID en op basis van sleutels) Ja (Microsoft Entra ID en op basis van sleutels)
Facturering Tokengebruik of geconfigureerde doorvoereenheden Per uur per SKU van de accelerator

Tip

Zie Plan en beheer de kosten voor Microsoft Foundry voor gedetailleerde prijsinformatie.