Kosten optimaliseren voor AI-workloads op Azure

In dit artikel wordt aan teams van startups in een vroeg stadium uitgelegd hoe ze kosten in AI-workloads op Microsoft Azure kunnen identificeren en verlagen. Het is geschreven voor de oprichter, CTO of eerste technische medewerker die eigenaar is van de cloudfactuur en de evaluatie (eval) die tegelijkertijd is ingesteld. Het omvat tagging en budgetdiscipline, de vier hefbomen in het verzoekpad (caching, batching, routing en modelselectie), het juist dimensioneren van GPU's voor zelf-gehoste inferentie, retrievalpatronen voor multi-tenantomgevingen en een veilige wijzigingscyclus die u kunt uitvoeren zonder een apart platformteam. Elke sectie wordt gelabeld met de fase uit de architectuurhandleiding Azure voor startups waar deze van toepassing is (Verkennen, Uitvouwen of Extraheren), zodat u het optimaliseren voor problemen die u nog niet hebt, kunt voorkomen.

In dit artikel leert u het volgende:

  • Identificeer de belangrijkste kostenfactoren in een AI-workload op Azure.
  • Koppel kostenoptimalisatiehendels aan uw opstartfase.
  • Pas promptcaching, semantische caching, batching, modelrouting en juiste dimensionering toe.
  • Ontwerp multi-tenant-ophaalpatronen en databasepatronen die lineair schalen met de omzet, niet met het gebruik.
  • Scherm kostenwijzigingen af met een eval-gate, budgetwaarschuwingen en ratelimieten per tenant.
  • Herken de vroege signalen dat u een doe-het-zelfaanpak voor kostenbeheer bent ontgroeid.

Prerequisites

  • Een Azure-abonnement met ten minste één AI-workload die wordt uitgevoerd in productie, fasering of een werkend prototype.
  • Machtigingen voor eigenaar of inzender voor de resources die u wilt meten.
  • Gebruiksgemak van het openen van het Azure-portaal. Er is geen eerdere ervaring met Cost Management of Azure Monitor vereist. In dit artikel wordt u naar de relevante pagina's verwezen.
  • Een kleine evaluatieset voor uw AI-functie, met 10 tot 50 representatieve prompts en verwacht gedrag. Als u er nog geen hebt, raadpleegt u de sectie Gerelateerde artikelen. U kunt de eerste versie in een middag bouwen.

Waarom dit belangrijk is voor start-ups

Voor een start-up in een vroeg stadium zijn de kosten van AI een operationeel risico. Goedkopere inferentie maakt engineeringuren vrij voor het volgende experiment, en dankzij stabiele kosten per actieve gebruiker kunt u verder plannen dan de volgende financieringsmijlpaal in plaats van slechts tot de volgende factuur. De patronen in dit artikel zijn bewust klein. Elk team is bereikbaar door een oprichter gedurende een weekend, zonder dat er een platform of FinOps-team nodig is.

Important

U hebt geen speciaal FinOps-team nodig om te beginnen. De eerste 80 procent van de kostenbesparingen komt voort uit het vanaf dag één voorzien van alles van tags, het verantwoordelijk maken van één persoon voor een wekelijkse evaluatie van het kostenbeheer en het toepassen van de maatregelen uit dit artikel in volgorde van de fasen. Breng formele FinOps-hulpprogramma's en -processen pas binnen nadat de uitgaven meer dan $ 50.000 per maand bedragen of dekt meer dan vijf afzonderlijke workloads.

Waarom AI-kosten anders worden weergegeven dan de traditionele cloudkosten

In een traditionele webapp wordt uw maandelijkse factuur vooral bepaald door VM's, databases en uitgaand dataverkeer. U kunt het meestal binnen 10 procent voorspellen door te weten hoeveel gebruikers u gebruikt. AI-workloads doorbreken die intuïtie. Dezelfde gebruiker kan het ene moment $ 0,001 kosten en het volgende $ 0,40, afhankelijk van de contextlengte, de ophaaldiepte en het model waarnaar het verzoek is gerouteerd.

Vier kostenpatronen komen terug in de meeste AI-producten op Azure:

  • Tokenuitgaven worden geschaald met contextlengte, niet het aantal gebruikers. Een naïeve RAG-prompt (retrieval-augmented generation) kan na één productwijziging uitgroeien van 800 tot 12.000 tokens.
  • Inactieve GPU-tijd is de grootste verborgen kostenpost bij zelf-gehoste inferentie. Een A100 die een nacht aan blijft staan, kost meer dan een maand aan een kleine Postgres-database.
  • De fan-out bij het ophalen uit zoek- en vectordatabases neemt toe. Elke chatbeurt kan drie tot acht verborgen query's genereren die u nooit in uw logbestanden ziet.
  • Data-uitstroom en opslag sluipen langzaam binnen via modelartefacten, embeddings, auditlogs en tenantspecifieke indexen.

Elke kostendrijver heeft een bekende reeks hefbomen. In de resterende secties worden ze in volgorde van prioriteit beschreven, voorzien van een label met de startupfase waarin de maatregel van toepassing is, zodat teams geen onnodig ingewikkelde oplossingen bedenken voor problemen die ze nog niet hebben.

Tip

Gebruik de richtlijnen voor kostenoptimalisatie van het Azure Well-Architected Framework in uw architectuur om uw rendement op investeringen (ROI) te ondersteunen en te verbeteren.

Overzicht van de fasen: welke hefbomen waar horen

De Azure architectuurhandleiding voor startups beschrijft drie fasen van productontwikkeling: Verkennen, Uitbreiden en extraheren. De kostenoptimalisatiehendels in dit artikel zijn afgestemd op deze fasen. Gebruik de volgende tabel om te bepalen welke secties vandaag van toepassing zijn op uw team en welke u wilt uitstellen.

Fase Aantal werknemers Belangrijkste kostendoel Levers die betalen
Ontdekken 1-10 technici Optioneel en snelheid Taggen, prompt opslaan in cache, goedkoop standaardmodel
Uitvouwen 10-50 technici Stop met kosten die lineair meegroeien met de omzet Semantische cache, schaal naar nul, routering, Batch-API
Uittreksel Meer dan 50 technici Marge, voorspelbaarheid, FinOps Reserveringen, toegewezen indexen, kwantisatie, prijzen per tenant

Uw belangrijkste kostenfactoren identificeren

Voordat u alles optimaliseert, krijgt u een plat beeld van waar geld daadwerkelijk heen gaat. In Azure is het snelste pad Cost Management, gegroepeerd op service en tag, voor de afgelopen 30 dagen.

Alles taggen vanaf dag 1

Taggen is de best mogelijke manier om kosten beter zichtbaar te maken. Zonder consistente tags kunt u geen uitgaven toewijzen aan een tenant, een functie of een omgeving. De Startup Scale Landing Zone (SSLZ)-referentiearchitectuur dwingt tags af op het beleidsniveau van de landing zone. Gebruik dezelfde benadering voor AI-resources.

costCenter = product | platform | research
tenant     = <customer-id> | shared
workload   = inference | embedding | training | eval
env        = prod | staging | dev
team       = <owning-team>

Waar moet ik eerst kijken

Kostenfactor Waar vind ik het? Gebruikelijk aandeel van de factuur
Tokens (LLM API) Azure OpenAI-metrische gegevens > Verwerkte prompt-/aanvullingstokens 30-60%
GPUs VM/AKS-knooppunturen op SKU (ND-, NC- en NV-families) 20-50%
Vector/zoekopdracht AI Search-queryeenheden, Cosmos DB RU/s 5-20%
Storage Blob Storage, Azure Files en Azure Container Registry voor modelartefacten 3-10%
Egress Bandbreedte buiten de regio, met name cross-cloud-aanroepen 2-15%

Exporteer Cost Management dagelijks naar een opslagaccount en verbind het met uw bestaande analysestack. Een wekelijks diagram van kosten per actieve gebruiker is een betrouwbaar signaal dat een optimalisatie het beoogde effect had.

Lever 1: Caching, batchverwerking, routering en modelselectie

Fase: Verkennen via Extract. Begin met caching in Explore, voeg routing en Batch toe in Expand, en voeg fijnmazige modelselectie per tenant toe in Extract.

Tip

Sla embeddings in de cache op op basis van de hash van de broninhoud, en gebruik een kleiner, goedkoper model, zoals GPT-4o mini of een open-weight-model van 7B tot 13B, voor een eerste classificatie- of extractiestap. Escaleer alleen naar een grensmodel op de aanvragen waarbij het kleine model onzeker is. Dit patroon alleen vermindert de inferentiekosten vaak al met 60 tot 80 procent, zonder meetbaar kwaliteitsverlies bij routinematige query’s.

Caching

  • Prompt caching: Azure OpenAI geeft automatisch korting op herhaalde voorvoegsels voor prompts van ten minste 1.024 tokens, beschikbaar voor GPT-4o en nieuwere modellen. De eerste 1024 tokens moeten identiek zijn om de cache te raken, dus houd systeemprompts en hulpprogrammadefinities stabiel.
  • Semantische cache: Insluit- en antwoordparen opslaan in Azure Cache voor Redis of Cosmos DB. Retourneert het antwoord in de cache wanneer een nieuwe query cosinus-overeenkomsten heeft boven ongeveer 0,95.
  • Uitvoercache: Voor niet-gepersonaliseerde eindpunten, zoals veelgestelde vragen en deterministische hulpprogramma's, vermindert een eenvoudige TTL-cache verkeer met 30 tot 80 procent.

Batching

Embedding- en classificatietaken zijn de meest voor de hand liggende kandidaten. Azure OpenAI Batch-API biedt een korting van 50 procent ten opzichte van realtime voor taken die maximaal 24 uur kunnen wachten, zoals nachtindexvernieuwing, evaluatoruitvoeringen en asynchrone samenvatting.

Routing

De meeste producten hebben niet het duurste model nodig bij elke aanroep. Een router, op basis van regels of geleerd, kan 60 tot 80 procent van het verkeer naar een goedkoper model verzenden zonder meetbare kwaliteitsvermindering.

Patroon Goedkoop pad Kostbaar pad
Intentieclassificatie GPT-4o mini of Phi-4 GPT-4o voor dubbelzinnige aanvragen
Hulpprogramma gebruiken of functie aanroepen Model uit het middensegment Model met de hoogste laag bij opnieuw proberen
Samenvatting van context met grote lengte Schuifvenster met middenklassemodel Model met volledige context op het hoogste niveau
Code genereren Model uit de middenklasse voor boilerplate Model met de hoogste laag voor herstructureringen

Modelselectie

Modelkeuze elk kwartaal opnieuw evalueren. Prijzen en kwaliteit veranderen snel. Een model dat zes maanden geleden je enige optie was, kan nu vijf keer duurder zijn dan een nieuwere SKU die op je evaluaties slechts één à twee punten lager scoort.

Lever 2: Juiste infrastructuur met automatische schaalaanpassing

Fase: Uitvouwen en extraheren. Kies in Verkennen voor serverless of platform as a service (PaaS), zoals App Service, Container Apps Consumption of Azure OpenAI Service, en sla deze optie over.

Als u inferentie met vLLM, Triton of Text Generation Inference (TGI) zelf host op Azure Kubernetes Service (AKS) of Container Apps, is uw op een na belangrijkste hefboom ervoor te zorgen dat GPU's niet ongebruikt blijven.

Terugschalen naar nul bij inactieve workloads

Stel minReplicas: 0 in voor Container Apps met een GPU-workloadprofiel, of gebruik Horizontal Pod Autoscaling (HPA) of KEDA op AKS om knooppuntgroepen naar nul te schalen wanneer er geen aanvragen meer actief zijn. Koude start duurt meestal tientallen seconden. Voer benchmarks uit met uw model en houd tijdens kantooruren één actieve replica warm als de door gebruikers ervaren latentie van belang is.

Juiste GPU-SKU naar modelgrootte

Koppel de GPU-klasse aan het aantal parameters. T4 of L4 is voldoende voor modellen onder ongeveer 13B-parameters. A100 of H100 loont alleen voor modellen met meer dan ongeveer 34 miljard parameters of bij een aanhoudend hoog aantal query’s per seconde (QPS). Serverloze GPU van Container Apps ondersteunt momenteel T4 en A100. L4 en H100 vereisen AKS.

Burst-training en batchtaken om te herkennen

Voer nachtelijke evaluaties, het vernieuwen van embeddings en offline samenvattingen uit op spot-nodepools, die doorgaans 60 tot 80 procent goedkoper zijn dan on-demand-instances. Productiedeductie behouden voor toegewezen capaciteit. De volgende tabel bevat een overzicht van de strategieën voor automatische schaalaanpassing en hun typische besparingen.

Caution

Spotcapaciteit kan met slechts 30 seconden kennisgeving worden beëindigd. Gebruik spot-instances alleen voor werk dat met checkpoints kan worden opgeslagen of probleemloos opnieuw kan worden gestart, zoals batchgewijze evaluaties, het vernieuwen van embeddings, offline samenvattingen en fine-tuning met frequente checkpoints. Plaats nooit gebruikersgerichte deductie of taken zonder logica voor opnieuw opstarten ter plaatse.

Strategy Hoe Typische besparingen
Schaal naar nul minReplicas: 0 op Container Apps met GPU-werkbelastingprofiel. Koude start duurt meestal tientallen seconden. Voer een benchmark uit met uw model. Maximaal 90%
KEDA op basis van de diepte van de wachtrij Schaal op basis van Service Bus- of wachtrijberichten, niet van CPU. 30-60%
SKU met de juiste grootte T4 of L4 voor modellen met minder dan 13B-parameters. A100 of H100 alleen voor modellen met meer dan 34B-parameters of hoge QPS. Serverloze GPU van Container Apps ondersteunt momenteel alleen T4 en A100. L4 en H100 vereisen AKS. 40-70%
Spotcapaciteit Spot-knooppuntgroepen voor batch- en evaluatiebewerkingen. Capaciteit op aanvraag voor productie. 40-80%
Kwantisatie AWQ- of GPTQ-4-bit-kwantisatie om grotere modellen op kleinere GPU's te laten passen. 30B passend maken op 16 GB

Note

Schalen naar nul op een chatinterface zorgt voor zichtbare cold-startlatentie. Een veelvoorkomend patroon is om één tot twee warme replica's tijdens kantooruren te bewaren en 's nachts naar nul te schalen.

Hefboom 3: multi-tenantpatronen zonder pieken in de ophaalkosten

Fase: Te laat uitvouwen en extraheren. In Verkennen hebt u bijna zeker één tenant: uzelf. Sla deze sectie over totdat u ten minste drie echte klanten hebt.

AI-producten met meerdere tenants mislukken op schaal wanneer het ophalen en databasepatronen zijn gekozen voor het prototype van één tenant. Er komen drie patronen terug.

Eén index per tenant versus gedeelde index met filters

Een toegewezen AI Search-index per tenant biedt duidelijke scheiding, maar brengt kosten in rekening voor elke index, zelfs wanneer die niet wordt gebruikt. Een gedeelde index met een tenantfilter is veel goedkoper op kleine en middelgrote schaal. Schakel alleen over naar dedicated voor het enterprise-niveau of wanneer een tenant een bepaalde omvangsdrempel overschrijdt.

Keuze voor vectordatabase

Kies uw vectoropslag op basis van uw bestaande infrastructuur en schaal. In de volgende tabel wordt een overzicht weergegeven wanneer elke optie past.

Waarschuwing

Het verwijderen van een vectorindex of het onderliggende archief kan niet ongedaan worden gemaakt en het opnieuw insluiten van een grote verzameling kan honderden tot duizenden dollars kosten in modelaanroepen plus uren aan technische tijd. Voordat u een destructieve wijziging in een vectorarchief aanbrengt, maakt u een momentopname van de brondocumenten en controleert u of de pijplijn voor opnieuw insluiten end-to-end wordt uitgevoerd op een kleine subset.

Option Ideaal voor Kostenstructuur
Azure AI Zoeken (vector) Hybride zoekopdrachten en facetten Per replica, voorspelbaar
Cosmos DB (vector) Teams maakt al gebruik van Cosmos DB voor app-gegevens RU/s, is afhankelijk van QPS
pgvector op Postgres Kleine of middelgrote corpora, eenvoudige handelingen Per-VM, erg goedkoop
Toegewezen vectordatabase 100M+ vectoren, hoge recall vereist Per knooppunt, duur

Voorkom verborgen N+1-ophaalacties

Elke agentstap die search aanroept, is een factureerbare query. Leg het aantal ophaalaanroepen per gebruikersbeurt vast en waarschuw wanneer de mediaan uw budget overschrijdt. Een goed begindoel is twee of minder ophaalopdrachten per beurt. Re-rankers en rewriters zijn plekken waar je gemakkelijk onbedoeld verkeer kunt verdubbelen.

Governance: kostenwijzigingen veilig houden

Fase: Alle fasen. De lichtgewicht versie, die een budget omvat, een evaluatiecontrole van één regel vóór de implementatie en één frequentielimiet, hoort vanaf dag één bij Explore. De zwaardere versie, met CI-blokkerende evalpoorten en limieten per tenant in API Management, behoort tot Expand en beyond.

Een optimalisatie die de kwaliteit onderbreekt, is geen optimalisatie. Het is een storing. Omgeef elke wijziging in de kosten met drie waarborgen. Elke beveiliging kan in minder dan een uur door één technicus worden geconfigureerd.

  1. Evaluatiecontrole: Voer uw evaluatieset uit voordat u een prompt, model of routeringswijziging implementeert. In de vroege fase kan deze controle een script zijn dat u handmatig uitvoert. Blokkeer de implementatie of draai deze terug als de score met meer daalt dan uw tolerantiedrempel, bijvoorbeeld één punt op een schaal van 100.
  2. Budgetwaarschuwingen: Stel Azure Cost Management budgetten per resourcegroep in met waarschuwingen van 50, 80 en 100 procent. Routeer ze naar hetzelfde Slack- of Teams-kanaal dat uw foutmeldingen ontvangt, zodat uitgaven en incidenten op dezelfde plaats terechtkomen.
  3. Limiet voor aanvraagfrequentie: Zelfs één limiet per IP-adres of per API-sleutel in API Management, NGINX of uw gateway voorkomt dat één ontspoorde client uw creditsaldo 's nachts leegtrekt. Voeg later limieten per tenant toe wanneer u betalende klanten hebt.

Wees voorzichtig met het bundelen van verschillende kostenoptimalisaties in één release. Wanneer de wijzigingen tegelijk worden doorgevoerd, wordt het moeilijk te achterhalen waar iets aan toe te schrijven is en is elke regressie kostbaar om via bisectie op te sporen.

Het experiment met twee hendels: hoe je ervoor en erna vergelijkt

Wanneer u besluit waar u wilt beginnen, kiest u twee hendels uit de vorige secties, verzendt u deze achter een functievlag en meet u 7 tot 14 dagen. Twee hendels zijn voldoende om zinvolle beweging te detecteren. Meer dan twee maakt toeschrijving onbetrouwbaar.

Voorgestelde eerste combinatie per fase

Fase Lever A Lever B
Prelaunch (<100 DAU) Prompt opslaan in cache Modelroutering met een goedkoop standaardmodel
Initiële groei (100-10k DAU) Semantische cache Terugschalen naar nul voor inferentie
Op schaal (10k+ DAU) Batch-API voor asynchroon werk Indexstrategie per tenant
Enterprise-niveau Speciale indexen voor belangrijkste accounts Gekwantiseerde modellen op L4 of H100
Baseline window:   2026-04-15 to 2026-04-28 (14 days)
Treatment window:  2026-05-01 to 2026-05-14 (14 days)
Levers shipped:    1) semantic cache on /chat
                   2) scale-to-zero on vLLM

Metrics:
  cost_per_active_user   (target: down 30%)
  p95_latency_ms         (guardrail: +<= 150 ms)
  eval_score_delta       (guardrail: >= -1.0)

Decision rule: Keep both if all guardrails hold. Otherwise, revert and ship one at a time.

Wat in dit artikel wordt behandeld en wat het niet doet

Dit artikel is bewust afgebakend. In de volgende secties worden onderwerpen vermeld die binnen het bereik vallen, onderwerpen die buiten het bereik vallen en de signalen die aangeven wanneer ze moeten worden toegevoegd.

Binnen de scope

  • Tagging, budgetten en Cost Management-procedures die geschikt zijn voor elke start-up.
  • De vier hefbomen van het aanvraagpad: caching, batching, routering en modelselectie.
  • Juiste dimensionering van GPU's en schalen naar nul voor zelfgehoste inferentie.
  • Multitenant-ophaalpatronen voor producten met drie tot 100 betalende tenants.
  • Een governancelus voor veilige wijzigingen: evaluatiepoort, budgetwaarschuwingen en frequentielimieten per tenant.

Buiten bereik

Onderwerp Wanneer moet u deze toevoegen
Reserveringen en besparingsplannen voor AI-rekenkracht De factuur voor inferentie blijft 90 dagen gelijk, meestal rond mid-Expand.
Toegewezen FinOps-hulpprogramma's, zoals Apptio Cloudability, Vantage en vergelijkbare hulpprogramma's Clouduitgaven overschrijden ongeveer $ 50.000 per maand of u werkt met meerdere clouds. De meeste vroege start-ups hebben dit niet nodig.
Aangepaste facturering op basis van tokens per eindklant U verkoopt prijzen op basis van gebruik of één tenant overschrijdt 25 procent van de factuur.
Optimalisatie van trainingskosten, zoals DeepSpeed en FSDP-afstemming U traint modellen in eigen huis. Producten die gericht zijn op inferentie hebben dit niet nodig.
Arbitrage voor kosten voor meerdere regio's of meerdere clouds U bevindt zich in de fase Extract met een bewezen economisch model in één regio.

Wanneer deze aanpak niet meer voldoende is

De procedures in dit artikel zijn ontworpen voor kleine teams die hun eigen cloud uitvoeren. Op een bepaald moment ontgroeit uw bedrijf ze. De volgende signalen zijn geen fouten. Zij zijn groei. Wanneer twee of meer van toepassing zijn, plan dan om specifieke tools of een parttime-platformverantwoordelijke in te zetten.

  • Maandelijkse Azure uitgaven hoger zijn dan ongeveer $ 50.000 en AI is meer dan 30 procent hiervan.
  • Meer dan 10 ingenieurs kunnen wijzigingen doorvoeren die de kosten met 5 procent of meer veranderen.
  • Ten minste één klant heeft een gebruik van meer dan $ 10.000 per maand en betaalt u een vast bedrag.
  • Uw investeerders of financieringspartner zijn begonnen met het vragen om een maandelijkse kostenprognose.
  • Het product wordt uitgevoerd in meer dan één Azure regio of cloud.

Tot die tijd is de lichtgewicht lus in dit artikel, waaronder tags, budgetten, een evaluatiepoort en een maandelijkse beoordeling, het juiste hulpprogramma. Verzet u tegen de verleiding om enterprise FinOps-hulpprogramma's vroeg te gebruiken. Het voegt eerst procesoverhead toe voordat het waarde levert.

Controlelijst voor naslaginformatie

Gebruik de volgende items als een controlelijst voor maandelijkse controle. Elk item wordt toegewezen aan een sectie in dit artikel.

  • Alle AI-resources zijn gelabeld met costCenter, tenanten workloadenv.
  • Er bestaat een Cost Management-dashboard, wordt gegroepeerd op tag en wordt wekelijks gecontroleerd.
  • Systeemprompts zijn stabiel genoeg voor prompt-cachetreffers.
  • Asynchroon werk, zoals insluitingen, evals en samenvattingen, wordt uitgevoerd op Batch-API.
  • De router verzendt ten minste 60 procent van het verkeer naar een goedkoper model zonder regressie.
  • GPU-workloads worden buiten kantooruren naar nul teruggeschaald of er worden spot-instances gebruikt voor batchtaken.
  • De mediaan van het aantal ophaalacties per beurt is twee of minder.
  • De multitenantstrategie wordt expliciet bepaald: gedeeld met een filter of dedicated.
  • Budgetten en limieten voor aanvragen per tenant worden gehandhaafd.
  • Elke prompt-, model- of routeringswijziging gaat door de eval-gate voordat deze wordt samengevoegd.